Differenza tra riduzione e filati della mappa
Yarn sta per Yet Another Resource Negotiator, è il nuovo framework per la gestione delle risorse (memoria e CPU). Ci aiuta a sviluppare qualsiasi applicazione distribuita, ci fornisce demoni e API necessari. Un'altra caratteristica importante di YARN è, gestisce e pianifica la richiesta di risorse dall'applicazione e aiuta il processo ad eseguire la richiesta. YARN è una piattaforma generica per eseguire qualsiasi applicazione distribuita, Map Reduce versione 2 è l'applicazione distribuita che gira sopra YARN, mentre map ridurre sta elaborando un'unità del componente Hadoop, elabora i dati in parallelo nell'ambiente distribuito. Quindi, fondamentalmente, il lavoro di riduzione delle mappe su enormi componenti di dati, elabora i dati e li archivia in HDFS in modo tale che il recupero sia più semplice rispetto allo storage tradizionale.
Confronto testa a testa tra MapReduce vs Yarn (Infographics)
Di seguito è riportato il confronto tra i primi 10 tra MapReduce vs Yarn
Differenza chiave tra MapReduce vs Yarn
- In Hadoop 1 ha due componenti, il primo è HDFS (Hadoop Distributed File System) e il secondo è Map Reduce. Considerando che in Hadoop 2 ha anche HDFS a due componenti e YARN / MRv2 (di solito abbiamo chiamato YARN come Map ridurre la versione 2).
- In Map Reduce, quando Map-riduc smette di funzionare, automaticamente tutto il suo nodo slave smetterà di funzionare, questo è lo scenario in cui l'esecuzione del lavoro può interrompersi e viene chiamato un singolo punto di errore. YARN risolve questo problema a causa della sua architettura, YARN ha il concetto di nodo nome attivo e nodo nome standby. Quando il nodo attivo smette di funzionare per qualche tempo, il nodo passivo inizia a funzionare come nodo attivo e continua l'esecuzione.
- La riduzione della mappa ha l'architettura a singolo master e slave multipli, se master-slave si interrompe, l'intero slave smetterà di funzionare, questo è l'unico punto di errore in HADOOP1, mentre HADOOP2 che si basa sull'architettura YARN ha il concetto di master e slave multipli, se un master si arresta, un altro master riprenderà il suo processo e continuerà l'esecuzione.
- Come possiamo vedere nel diagramma seguente, la differenza in entrambi gli ecosistemi HADOOP1 e HADOOP2. Componente per quanto riguarda YARN, la gestione delle risorse interagisce con Map-reduce e HDFS.
Quindi, in pratica, YARN è responsabile della gestione delle risorse: quale lavoro verrà eseguito da quale sistema verrà deciso da YARN, mentre la riduzione della mappa è un framework di programmazione che è responsabile di come eseguire un determinato lavoro, quindi sostanzialmente la riduzione della mappa ha due mapper e riduttori a due componenti per l'esecuzione di un programma.
- In Map ridurre ogni nodo di dati eseguito individualmente mentre in Yarn ogni nodo di dati viene eseguito da un gestore nodi.
- Mappa riduci utilizza Job tracker per creare e assegnare un'attività al tracker attività a causa dei dati che la gestione della risorsa non è impressionante, poiché alcuni dei nodi di dati rimarranno inattivi e non servono, mentre in YARN ha un gestore risorse per ogni cluster e ogni nodo di dati esegue un Node Manager. Per ogni lavoro, un nodo slave fungerà da master dell'applicazione, monitorando risorse / attività.
Tabella di confronto MapReduce vs Yarn
Base per il confronto | FILATO | Riduci mappa |
Senso | FILATO sta per l'ennesimo negoziatore di risorse. | Map Reduce è auto-definito. |
Versione | Introdurre in Hadoop 2.0 | Introdurre in Hadoop 1.0 |
Responsabilità | Ora YARN è responsabile della parte di gestione delle risorse. | La riduzione della mappa precedente era responsabile della gestione delle risorse e dell'elaborazione dei dati |
Modello di esecuzione | Il modello di esecuzione del filato è più generico rispetto a Riduci mappa | Meno generico rispetto a YARN. |
Esecuzione dell'applicazione | YARN può eseguire anche quelle applicazioni che non seguono il modello Map Reduce | Map Reduce può eseguire la propria applicazione basata su modello. |
Architettura | YARN è stato introdotto in MR2 in cima al Job Tracker e al Task Tracker. Al posto di Job Tracker e Task Tracker Application, il master entra in scena. | Nella versione precedente di MR1, YARN non è presente Al posto di YARN erano presenti il tracker lavoro e il tracker attività che aiutano nell'esecuzione dell'applicazione o dei lavori |
Flessibilità | YARN è più isolato e scalabile | Meno scalabile rispetto a YARN. |
Demoni | YARN ha il nodo Nome, nodo Dati, nodo Nome secondario, Gestione risorse e Gestione nodi. | Map Reduce ha il nodo Nome, nodo Dati, nodo Nome secondario, tracker lavori e tracker attività. |
Limitazione | Non esiste il concetto di singolo punto di errore in YARN perché ha più Master, quindi se uno ha fallito un altro master lo prenderà e riprenderà l'esecuzione. | Singolo punto di errore, basso utilizzo delle risorse (massimo 4200 cluster di YAHOO) e minore scalabilità rispetto a YARN |
Taglia | Per impostazione predefinita, la dimensione di un nodo dati in YARN è 128 MB | Per impostazione predefinita, la dimensione di un nodo dati in Riduci mappa è 64 MB. |
Conclusione - MapReduce vs Yarn
In Hadoop 1, che si basa su Map Reduce, ci sono diversi problemi che si superano in Hadoop 2 con Yarn. Come in Hadoop 1, il job tracker è responsabile della gestione delle risorse, ma YARN ha il concetto di gestore delle risorse e di gestione dei nodi che prenderà la gestione delle risorse. La riduzione della mappa ha un singolo punto di errore, ad esempio il Job Tracker, se il Job Tracker smette di funzionare, è necessario riavviare l'intero cluster ed eseguire nuovamente il lavoro dall'Iniziale. In uno scenario reale, nessuna organizzazione non vuole correre questo tipo di rischio, specialmente in un settore della difesa bancaria. Tale organizzazione che lavora sulla semplificazione dei dati non sarà pronta a correre questo tipo di rischio. Per pochi minuti, perderanno i loro dati e potrebbero avere un impatto aziendale critico. Quindi YARN ha un risultato migliore rispetto a Riduci mappa.
Articolo raccomandato
Questa è stata una guida a MapReduce vs Yarn, il loro significato, confronto testa a testa, differenze chiave, tabella di confronto e conclusioni. Puoi anche consultare i seguenti articoli per saperne di più -
- Le 15 migliori cose da sapere su MapReduce vs Spark
- Le 5 migliori differenze tra Hadoop e MapReduce
- 10 Differenza utile tra Hadoop vs Redshift
- Apache Hadoop vs Apache Spark | I 10 migliori confronti che devi sapere!
- Come funziona MapReduce?