Cos'è MapReduce in Hadoop

MapReduce è un framework di Hadoop che viene utilizzato per elaborare parallelamente enormi quantità di dati su grandi cluster di hardware delle materie prime in modo affidabile. Hadoop è un progetto open source fornito dalla base software Apache. Hadoop era solito eseguire analisi in modo rapido e affidabile sia per i dati strutturati che per quelli non strutturati. Hadoop è in grado di gestire set di dati molto grandi e che potrebbero essere sia dati strutturati che dati non strutturati, che in realtà è associato a big data. Framework Hadoop che consente a un'applicazione di archiviare i dati in una forma distribuita ed elaborare grandi set di dati tra cluster di computer utilizzando un semplice modello di programmazione, questo è ciò che Map Reduce, quindi in altre parole possiamo chiamare Map Reduce come modello di programmazione utilizzato per l'elaborazione enorme quantità di dati distribuiti sul numero di cluster. Hadoop può scalare da singoli server a migliaia di nodi o macchine informatici che ciascuno utilizza per il calcolo e l'archiviazione.

Il progetto Apache Hadoop contiene una serie di sottoprogetti come:

  • Hadoop Common: Hadoop Common con utilità che supportano gli altri sottoprogetti di Hadoop.
  • Hadoop Distributed File System (HDFS): Hadoop Distributed File System consente di accedere al file distribuito ai dati dell'applicazione.
  • Hadoop MapReduce: Hadoop MapReduce è un framework software per l'elaborazione di grandi set di dati distribuiti su cluster di calcolo.
  • Hadoop YARN: Hadoop YARN è un framework per la gestione delle risorse e la pianificazione dei lavori.

In che modo MapReduce in Hadoop rende il lavoro così facile?

MapReduce semplifica il ridimensionamento dell'elaborazione dei dati su centinaia o migliaia di macchine cluster. Il modello MapReduce funziona in realtà in due passaggi chiamati map and riduc e l'elaborazione chiamata rispettivamente come mapper e riduttore. Una volta che scriviamo MapReduce per un'applicazione, l'applicazione al ridimensionamento per l'esecuzione su multipli o anche multipli di migliaia di cluster è semplicemente una modifica della configurazione. Questa caratteristica del modello MapReduce ha attratto molti programmatori a usarlo.

Come funziona MapReduce in Hadoop?

Il programma MapReduce viene eseguito principalmente in quattro passaggi:

  1. L'ingresso si divide
  2. Carta geografica
  3. rimescolare
  4. Ridurre

Ora vedremo ogni passaggio come funzionano.

1. Mappa passo-

Questo passaggio è la combinazione del passaggio di suddivisione dell'input e del passaggio Mappa. Nel passaggio Mappa, il file di origine viene passato riga per riga. Prima che l'input passi al processo della funzione Mappa, l'input viene diviso in una piccola dimensione fissa denominata Input split. La suddivisione dell'input è una porzione dell'input che potrebbe essere consumata da una singola mappa. Nel passaggio Mappa, ciascun dato suddiviso viene passato alla funzione mapper, quindi la funzione mapper elabora i dati e quindi genera i valori. Generalmente, i dati di input del lavoro della mappa o del mapper sono sotto forma di un file o directory che è archiviato nel file system Hadoop (HDFS).

2. Ridurre il passaggio

Questo passaggio è la combinazione del passaggio Shuffle e del Riduci. La funzione di riduzione o il lavoro del riduttore prende i dati che sono il risultato della funzione della mappa. Dopo l'elaborazione, riducendo la funzione, vengono prodotti nuovi set di risultati che vengono nuovamente archiviati nell'HDFS.

In un framework Hadoop, non è sicuro che ciascun cluster esegua il lavoro Mappa o Riduci o Mappa e Riduci. Pertanto, la richiesta delle attività Mappa e Riduci dovrebbe essere inviata ai server appropriati nel cluster. Lo stesso framework Hadoop gestisce tutte le attività di emissione, verifica del completamento del lavoro, recupero dei dati da HDFS, copia dei dati nel cluster dei nodi e così via. In Hadoop principalmente il calcolo avviene su nodi insieme ai dati nei nodi stessi che riduce il traffico di rete.

Quindi il framework MapReduce è molto utile nel framework Hadoop.

Vantaggi di MapReduce

  1. Scalabilità : MapReduce rende Hadoop altamente scalabile perché consente di archiviare set di dati di grandi dimensioni in forma di distribuzione su più server. Poiché è distribuito su più dispositivi, può operare in parallelo.
  2. Soluzione conveniente - MapReduce offre una soluzione molto conveniente per le aziende che hanno bisogno di archiviare i dati in crescita e di elaborarli in un modo molto conveniente, che è la necessità aziendale di oggi.
  3. Flessibilità - MapReduce rende Hadoop molto flessibile per diverse fonti di dati e anche per diversi tipi di dati come dati strutturati o non strutturati. Pertanto, è molto flessibile accedere ai dati strutturati o non strutturati ed elaborarli.
  4. Veloce - Dato che i dati di archiviazione di Hadoop nel file system distribuito, mediante i quali l'archiviazione dei dati sul disco locale di un cluster e i programmi MapReduce si trovano generalmente negli stessi server, il che consente un'elaborazione più rapida dei dati poiché non è necessario accedervi i dati da altri server.
  5. Elaborazione parallela - Poiché i dati di archiviazione di Hadoop nel file system distribuito e il funzionamento del programma MapReduce sono tali da dividere la mappa delle attività e ridurla e che potrebbe essere eseguita in parallelo. E ancora a causa dell'esecuzione parallela, riduce l'intero tempo di esecuzione.

Competenze

Le competenze richieste per MapReduce in Hadoop sono una buona conoscenza della programmazione di Java (obbligatoria), del sistema operativo Linux e della conoscenza delle query SQL.

Lo scopo di MapReduce in Hadoop

MapReduce in Hadoop è un settore in rapida crescita poiché il campo dei big data sta crescendo, quindi l'ambito di MapReduce in Hadoop è molto promettente in futuro poiché la quantità di dati strutturati e non strutturati sta aumentando esponenzialmente di giorno in giorno. Le piattaforme di social media stanno generando molti dati non strutturati che possono essere estratti per ottenere informazioni reali in diversi domini.

Conclusione

  • MapReduce è un framework di Hadoop che viene utilizzato per elaborare parallelamente enormi quantità di dati su grandi cluster di hardware delle materie prime in modo affidabile.
  • Il progetto Apache Hadoop contiene una serie di sottoprogetti come Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
  • Nel passaggio della mappa, ciascun dato suddiviso viene passato alla funzione mapper, quindi la funzione mapper elabora i dati e quindi genera i valori.
  • La funzione di riduzione o il lavoro del riduttore prende i dati che sono il risultato della funzione della mappa.
  • I vantaggi di MapReduce sono elencati come Scalabilità, Soluzione economica, Flessibilità, Elaborazione parallela e veloce.

Articoli consigliati

Questa è stata una guida a What is MapReduce in Hadoop. Qui abbiamo discusso i componenti, il funzionamento, le competenze, la crescita della carriera e i vantaggi di MapReduce in Hadoop. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più

  1. Che cos'è un algoritmo?
  2. Differenze tra Hadoop vs MapReduce
  3. Che cos'è Azure?
  4. Che cos'è la tecnologia dei Big Data?
  5. Come funziona MapReduce

Categoria: