Introduzione a MapReduce Intervista Domande e risposte
MapReduce è un semplice modello di programmazione di dati paralleli progettato per la scalabilità e la tolleranza agli errori. Possiamo dire che MapReduce è un framework, che utilizza il concetto di nodi per parallelizzare i problemi che si verificano in set di dati di grandi dimensioni, se si tratta di una rete locale utilizza lo stesso hardware e se MapReduce è geograficamente distribuito utilizza hardware diverso rispettivamente. MapReduce è essenzialmente composto dalla funzione Map () e dalla funzione Reduce (). È stato reso popolare dal progetto open source Hadoop.
Di seguito sono elencate le 9 importanti domande e risposte dell'intervista MapReduce 2019:
Se stai cercando un lavoro correlato a MapReduce, devi prepararti per le domande di intervista su MapReduce del 2019. Sebbene ogni intervista a MapReduce sia diversa e anche la portata di un lavoro sia diversa, possiamo aiutarti con le domande più frequenti sull'intervista di MapReduce con le risposte, che ti aiuteranno a fare il salto di qualità e ad avere successo nel tuo colloquio.
Queste domande sono divise in due parti:
Parte 1 - Domande di intervista con MapReduce (di base)
Questa prima parte copre le domande e le risposte di intervista di MapReduce di base.
1. Che cos'è MapReduce?
Risposta:
MapReduce è un semplice modello di programmazione di dati paralleli progettato per la scalabilità e la tolleranza agli errori. In altre parole, è un framework che elabora problemi parallelizzabili in set di dati di grandi dimensioni utilizzando il concetto di nodi (il numero di computer) che sono a loro volta classificati come cluster se si tratta di una rete locale e utilizza lo stesso hardware o griglie se lo sono distribuito geograficamente e utilizza hardware diverso. MapReduce comprende essenzialmente una funzione Map () e una funzione Reduce (). È stato introdotto da Google e elabora molti petabyte di dati ogni giorno. È stato reso popolare dal progetto open source Hadoop ed è usato su Yahoo, Facebook e Amazon per citarne alcuni.
2. Che cos'è MapReduce utilizzato per-per azienda?
Risposta:
Google
• Costruzione di un indice per la ricerca di Google
Il processo di costruzione di un indice posizionale o nonposizionale è chiamato costruzione o indicizzazione dell'indice. Il ruolo di MapReduce è Index Construction ed è progettato per cluster di computer di grandi dimensioni. Lo scopo del cluster è risolvere i problemi computazionali per nodi o computer costruiti con parti standard anziché con un supercomputer.
• Raggruppamento di articoli per Google News
Per il raggruppamento di articoli, le pagine vengono prima classificate a seconda che siano necessarie per il raggruppamento. Le pagine includono molte informazioni non necessarie per il clustering. Quindi l'articolo viene portato nella sua forma vettoriale in base alle parole chiave e al peso che viene dato. Quindi vengono raggruppati mediante algoritmi.
• Traduzione automatica statistica
La traduzione di corpora di testo bilingue mediante analisi genera modelli statistici che traducono una lingua in un'altra usando i pesi ed è ridotta alla traduzione più probabile.
Yahoo
• "Mappa Web" che alimenta Yahoo! Ricerca
Simile all'articolo clustering per Google News, MapReduce viene utilizzato per raggruppare gli output di ricerca su Yahoo! Piattaforma.
• Rilevazione spam per Yahoo! posta
Facebook
•Estrazione dei dati
La recente tendenza dell'esplosione dei dati ha comportato la necessità di metodi sofisticati per dividere i dati in blocchi che possono essere utilizzati facilmente per il passaggio successivo dell'analisi.
• d Ottimizzazione
• Rilevazione spam
Passiamo alle prossime domande di intervista di MapReduce.
3. Quali sono gli obiettivi di progettazione di MapReduce
Risposta:
• Scalabilità su grandi volumi di dati
Poiché MapReduce è un framework che mira a lavorare con dati parallelizzabili usando il concetto di nodi che sono il numero di computer come cluster o griglie, è scalabile in n numero di computer. Quindi un importante obiettivo di progettazione di MapReduce è che è scalabile a migliaia di macchine e quindi a 10.000 di dischi.
• Efficienza economica
Poiché MapReduce funziona con la parallelizzazione dei dati sui nodi o sul numero di computer, i seguenti sono i motivi che lo rendono conveniente:
- Macchine per materie prime economiche anziché un supercomputer. Anche se economici sono inaffidabili.
-Rete di rete
-Tolleranza agli errori automatica, ovvero meno amministratori.
-È facile da usare, cioè richiede meno programmatori.
4. Quali sono le sfide di MapReduce?
Risposta:
Queste sono le domande frequenti sull'intervista di MapReduce poste in un'intervista. Le principali sfide di MapReduce sono le seguenti:
-I nodi economici falliscono, specialmente se ne hai molti
Il tempo medio tra guasti per 1 nodo è pari a 3 anni. Il tempo medio tra guasti per 1000 nodi è pari a 1 giorno. La soluzione è quella di integrare la tolleranza d'errore nel sistema stesso.
-La rete della sistemazione è uguale o implica una larghezza di banda ridotta
La soluzione per una larghezza di banda ridotta consiste nel trasferire il calcolo ai dati.
-Programmare i sistemi distribuiti è difficile
La soluzione per questo è che secondo il modello di programmazione parallela ai dati, gli utenti scrivono le funzioni "mappa" e "riduzione". Il sistema distribuisce il lavoro e gestisce i guasti.
5. Cos'è il modello di programmazione MapReduce?
Risposta:
Il modello di programmazione MapReduce si basa su un concetto chiamato record di valori-chiave. Fornisce inoltre paradigmi per l'elaborazione di dati paralleli. Per elaborare i dati in MapReduce, sia i dati di input che quelli di output devono essere mappati nel formato di più coppie chiave-valore. La singola coppia chiave-valore viene anche definita record. Il modello di programmazione MapReduce è costituito da una funzione Map () e una funzione Reduce. Il modello per questi è il seguente.
Funzione Mappa (): (K in, V in) list (K inter, V inter)
Funzione di riduzione (): (K inter, list (V inter)) list (K out, V out)
Parte 2 - Domande di intervista con MapReduce (Avanzate)
Diamo ora un'occhiata alle domande avanzate di intervista di MapReduce.
6. Quali sono i dettagli dell'esecuzione di MapReduce?
Risposta:
Nel caso dell'esecuzione di MapReduce, un singolo master controlla l'esecuzione del lavoro su più slave. Si preferisce che i mappatori vengano posizionati sullo stesso nodo o stesso rack del blocco di input in modo da ridurre al minimo l'utilizzo della rete. Inoltre, i mappatori salvano gli output sul disco locale prima di servirli ai riduttori. Ciò consente il ripristino in caso di crash di un riduttore e consente più riduttori rispetto ai nodi.
7. Che cos'è un combinatore?
Risposta:
Il combinatore, noto anche come semi-riduttore, opera accettando input dalla classe Map e passando le coppie chiave-valore di output alla classe Reducer. La funzione principale di un combinatore è di riassumere i record di output della mappa con lo stesso tasto. In altre parole, un combinatore è una funzione di aggregazione locale per tasti ripetuti prodotti dalla stessa mappa. Funziona per funzioni associative come SUM, COUNT e MAX. Diminuisce la dimensione dei dati intermedi in quanto è un riepilogo dell'aggregazione di valori per tutte le chiavi ripetitive.
Passiamo alle prossime domande di intervista di MapReduce.
8.Perché maiale? Perché non MapReduce?
Risposta:
• MapReduce consente al programmatore di svolgere una funzione di mappa seguita da una funzione di riduzione, ma lavorare su come adattare l'elaborazione dei dati a questo modello, che spesso richiede più fasi di MapReduce, può essere una sfida.
• Con Pig, le strutture dei dati sono molto più ricche, in quanto sono multivalore e nidificate e l'insieme di trasformazioni che è possibile applicare ai dati è molto più potente. Ad esempio, includono join che non sono possibili in MapReduce.
• Inoltre, Pig è un programma che trasforma la trasformazione in una serie di lavori MapReduce.
9.Mappa Riduci le critiche
Risposta:
Una critica importante di MapReduce è che il ciclo di sviluppo è molto lungo. Scrivere mappatori e riduttori, compilare e impacchettare il codice, inviare il lavoro e recuperare i risultati richiede tempo. Anche con lo streaming, che rimuove la fase di compilazione e pacchetto, l'esperienza richiede ancora molto tempo.
Articolo raccomandato
Questa è stata una guida all'elenco delle domande e risposte dell'intervista di MapReduce in modo che il candidato possa reprimere facilmente queste domande sull'intervista di MapReduce. Puoi anche consultare i seguenti articoli per saperne di più -
- Domande importanti di intervista di analisi dei dati
- 10 migliori domande di intervista sul modello di progettazione
- Domande di intervista su Elasticsearch
- Domande di intervista su Ruby più utili
- Come funziona MapReduce