Che cos'è MapReduce in Hadoop? - Come Funziona - Competenze e crescita professionale

Cos'è MapReduce in Hadoop

MapReduce è un framework di Hadoop che viene utilizzato per elaborare parallelamente enormi quantità di dati su grandi cluster di hardware delle materie prime in modo affidabile. Hadoop è un progetto open source fornito dalla base software Apache. Hadoop era solito eseguire analisi in modo rapido e affidabile sia per i dati strutturati che per quelli non strutturati. Hadoop è in grado di gestire set di dati molto grandi e che potrebbero essere sia dati strutturati che dati non strutturati, che in realtà è associato a big data. Framework Hadoop che consente a un'applicazione di archiviare i dati in una forma distribuita ed elaborare grandi set di dati tra cluster di computer utilizzando un semplice modello di programmazione, questo è ciò che Map Reduce, quindi in altre parole possiamo chiamare Map Reduce come modello di programmazione utilizzato per l'elaborazione enorme quantità di dati distribuiti sul numero di cluster. Hadoop può scalare da singoli server a migliaia di nodi o macchine informatici che ciascuno utilizza per il calcolo e l'archiviazione.

Il progetto Apache Hadoop contiene una serie di sottoprogetti come:

Hadoop Common: Hadoop Common con utilità che supportano gli altri sottoprogetti di Hadoop.
Hadoop Distributed File System (HDFS): Hadoop Distributed File System consente di accedere al file distribuito ai dati dell'applicazione.
Hadoop MapReduce: Hadoop MapReduce è un framework software per l'elaborazione di grandi set di dati distribuiti su cluster di calcolo.
Hadoop YARN: Hadoop YARN è un framework per la gestione delle risorse e la pianificazione dei lavori.

In che modo MapReduce in Hadoop rende il lavoro così facile?

MapReduce semplifica il ridimensionamento dell'elaborazione dei dati su centinaia o migliaia di macchine cluster. Il modello MapReduce funziona in realtà in due passaggi chiamati map and riduc e l'elaborazione chiamata rispettivamente come mapper e riduttore. Una volta che scriviamo MapReduce per un'applicazione, l'applicazione al ridimensionamento per l'esecuzione su multipli o anche multipli di migliaia di cluster è semplicemente una modifica della configurazione. Questa caratteristica del modello MapReduce ha attratto molti programmatori a usarlo.

Come funziona MapReduce in Hadoop?

Il programma MapReduce viene eseguito principalmente in quattro passaggi:

L'ingresso si divide
Carta geografica
rimescolare
Ridurre

Ora vedremo ogni passaggio come funzionano.

1. Mappa passo-

Questo passaggio è la combinazione del passaggio di suddivisione dell'input e del passaggio Mappa. Nel passaggio Mappa, il file di origine viene passato riga per riga. Prima che l'input passi al processo della funzione Mappa, l'input viene diviso in una piccola dimensione fissa denominata Input split. La suddivisione dell'input è una porzione dell'input che potrebbe essere consumata da una singola mappa. Nel passaggio Mappa, ciascun dato suddiviso viene passato alla funzione mapper, quindi la funzione mapper elabora i dati e quindi genera i valori. Generalmente, i dati di input del lavoro della mappa o del mapper sono sotto forma di un file o directory che è archiviato nel file system Hadoop (HDFS).

2. Ridurre il passaggio

Questo passaggio è la combinazione del passaggio Shuffle e del Riduci. La funzione di riduzione o il lavoro del riduttore prende i dati che sono il risultato della funzione della mappa. Dopo l'elaborazione, riducendo la funzione, vengono prodotti nuovi set di risultati che vengono nuovamente archiviati nell'HDFS.

In un framework Hadoop, non è sicuro che ciascun cluster esegua il lavoro Mappa o Riduci o Mappa e Riduci. Pertanto, la richiesta delle attività Mappa e Riduci dovrebbe essere inviata ai server appropriati nel cluster. Lo stesso framework Hadoop gestisce tutte le attività di emissione, verifica del completamento del lavoro, recupero dei dati da HDFS, copia dei dati nel cluster dei nodi e così via. In Hadoop principalmente il calcolo avviene su nodi insieme ai dati nei nodi stessi che riduce il traffico di rete.

Quindi il framework MapReduce è molto utile nel framework Hadoop.

Vantaggi di MapReduce

Scalabilità : MapReduce rende Hadoop altamente scalabile perché consente di archiviare set di dati di grandi dimensioni in forma di distribuzione su più server. Poiché è distribuito su più dispositivi, può operare in parallelo.
Soluzione conveniente - MapReduce offre una soluzione molto conveniente per le aziende che hanno bisogno di archiviare i dati in crescita e di elaborarli in un modo molto conveniente, che è la necessità aziendale di oggi.
Flessibilità - MapReduce rende Hadoop molto flessibile per diverse fonti di dati e anche per diversi tipi di dati come dati strutturati o non strutturati. Pertanto, è molto flessibile accedere ai dati strutturati o non strutturati ed elaborarli.
Veloce - Dato che i dati di archiviazione di Hadoop nel file system distribuito, mediante i quali l'archiviazione dei dati sul disco locale di un cluster e i programmi MapReduce si trovano generalmente negli stessi server, il che consente un'elaborazione più rapida dei dati poiché non è necessario accedervi i dati da altri server.
Elaborazione parallela - Poiché i dati di archiviazione di Hadoop nel file system distribuito e il funzionamento del programma MapReduce sono tali da dividere la mappa delle attività e ridurla e che potrebbe essere eseguita in parallelo. E ancora a causa dell'esecuzione parallela, riduce l'intero tempo di esecuzione.

Competenze

Le competenze richieste per MapReduce in Hadoop sono una buona conoscenza della programmazione di Java (obbligatoria), del sistema operativo Linux e della conoscenza delle query SQL.

Lo scopo di MapReduce in Hadoop

MapReduce in Hadoop è un settore in rapida crescita poiché il campo dei big data sta crescendo, quindi l'ambito di MapReduce in Hadoop è molto promettente in futuro poiché la quantità di dati strutturati e non strutturati sta aumentando esponenzialmente di giorno in giorno. Le piattaforme di social media stanno generando molti dati non strutturati che possono essere estratti per ottenere informazioni reali in diversi domini.

Conclusione

MapReduce è un framework di Hadoop che viene utilizzato per elaborare parallelamente enormi quantità di dati su grandi cluster di hardware delle materie prime in modo affidabile.
Il progetto Apache Hadoop contiene una serie di sottoprogetti come Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
Nel passaggio della mappa, ciascun dato suddiviso viene passato alla funzione mapper, quindi la funzione mapper elabora i dati e quindi genera i valori.
La funzione di riduzione o il lavoro del riduttore prende i dati che sono il risultato della funzione della mappa.
I vantaggi di MapReduce sono elencati come Scalabilità, Soluzione economica, Flessibilità, Elaborazione parallela e veloce.

Articoli consigliati

Questa è stata una guida a What is MapReduce in Hadoop. Qui abbiamo discusso i componenti, il funzionamento, le competenze, la crescita della carriera e i vantaggi di MapReduce in Hadoop. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più

Che cos'è un algoritmo?
Differenze tra Hadoop vs MapReduce
Che cos'è Azure?
Che cos'è la tecnologia dei Big Data?
Come funziona MapReduce

Che cos'è MapReduce in Hadoop? - Come Funziona - Competenze e crescita professionale

Sommario:

Cos'è MapReduce in Hadoop

In che modo MapReduce in Hadoop rende il lavoro così facile?

Come funziona MapReduce in Hadoop?

Vantaggi di MapReduce

Competenze

Lo scopo di MapReduce in Hadoop

Conclusione

Articoli consigliati

TypeScript vs JavaScript - 9 Confronto più utile da imparare

Due tabelle di dati variabili in Excel - Come eseguire due tabelle di dati variabili

Tipi di cifratura - Primi 7 diversi tipi di cifratura in dettaglio

Tipi di cloud computing - Diversi tipi e usi del cloud computing

Tipi di algoritmi - Scopri i 6 principali tipi di algoritmi importanti

Strumenti di integrazione continua - 7 Miglior strumento per l'integrazione continua

Formula del margine di contribuzione - Calcolatrice (modello Excel)

Cookie in JavaScript - Come funzionano i cookie in JavaScript con esempio?

Dichiarazione di controllo in C ++ - Dichiarazione di controllo diversa in C ++

Grafici di contorno in Excel - Come creare grafici di contorno in Excel?

Come usare i metodi di fusione con canali di colore in Photoshop

Confronto tra livelli e curve in Photoshop

Colorazione e miglioramento dei colori con Photo Filter in Photoshop

Neutralizzare i colori con il filtro fotografico in Photoshop

Correzione di tono e colore con livelli in Photoshop