Introduzione a MapReduce Intervista Domande e risposte

MapReduce è un semplice modello di programmazione di dati paralleli progettato per la scalabilità e la tolleranza agli errori. Possiamo dire che MapReduce è un framework, che utilizza il concetto di nodi per parallelizzare i problemi che si verificano in set di dati di grandi dimensioni, se si tratta di una rete locale utilizza lo stesso hardware e se MapReduce è geograficamente distribuito utilizza hardware diverso rispettivamente. MapReduce è essenzialmente composto dalla funzione Map () e dalla funzione Reduce (). È stato reso popolare dal progetto open source Hadoop.

Di seguito sono elencate le 9 importanti domande e risposte dell'intervista MapReduce 2019:

Se stai cercando un lavoro correlato a MapReduce, devi prepararti per le domande di intervista su MapReduce del 2019. Sebbene ogni intervista a MapReduce sia diversa e anche la portata di un lavoro sia diversa, possiamo aiutarti con le domande più frequenti sull'intervista di MapReduce con le risposte, che ti aiuteranno a fare il salto di qualità e ad avere successo nel tuo colloquio.

Queste domande sono divise in due parti:

Parte 1 - Domande di intervista con MapReduce (di base)

Questa prima parte copre le domande e le risposte di intervista di MapReduce di base.

1. Che cos'è MapReduce?

Risposta:
MapReduce è un semplice modello di programmazione di dati paralleli progettato per la scalabilità e la tolleranza agli errori. In altre parole, è un framework che elabora problemi parallelizzabili in set di dati di grandi dimensioni utilizzando il concetto di nodi (il numero di computer) che sono a loro volta classificati come cluster se si tratta di una rete locale e utilizza lo stesso hardware o griglie se lo sono distribuito geograficamente e utilizza hardware diverso. MapReduce comprende essenzialmente una funzione Map () e una funzione Reduce (). È stato introdotto da Google e elabora molti petabyte di dati ogni giorno. È stato reso popolare dal progetto open source Hadoop ed è usato su Yahoo, Facebook e Amazon per citarne alcuni.

2. Che cos'è MapReduce utilizzato per-per azienda?

Risposta:
Google
• Costruzione di un indice per la ricerca di Google
Il processo di costruzione di un indice posizionale o nonposizionale è chiamato costruzione o indicizzazione dell'indice. Il ruolo di MapReduce è Index Construction ed è progettato per cluster di computer di grandi dimensioni. Lo scopo del cluster è risolvere i problemi computazionali per nodi o computer costruiti con parti standard anziché con un supercomputer.
• Raggruppamento di articoli per Google News
Per il raggruppamento di articoli, le pagine vengono prima classificate a seconda che siano necessarie per il raggruppamento. Le pagine includono molte informazioni non necessarie per il clustering. Quindi l'articolo viene portato nella sua forma vettoriale in base alle parole chiave e al peso che viene dato. Quindi vengono raggruppati mediante algoritmi.
• Traduzione automatica statistica
La traduzione di corpora di testo bilingue mediante analisi genera modelli statistici che traducono una lingua in un'altra usando i pesi ed è ridotta alla traduzione più probabile.
Yahoo
• "Mappa Web" che alimenta Yahoo! Ricerca
Simile all'articolo clustering per Google News, MapReduce viene utilizzato per raggruppare gli output di ricerca su Yahoo! Piattaforma.
• Rilevazione spam per Yahoo! posta
Facebook
•Estrazione dei dati
La recente tendenza dell'esplosione dei dati ha comportato la necessità di metodi sofisticati per dividere i dati in blocchi che possono essere utilizzati facilmente per il passaggio successivo dell'analisi.
• d Ottimizzazione
• Rilevazione spam

Passiamo alle prossime domande di intervista di MapReduce.

3. Quali sono gli obiettivi di progettazione di MapReduce

Risposta:
Scalabilità su grandi volumi di dati
Poiché MapReduce è un framework che mira a lavorare con dati parallelizzabili usando il concetto di nodi che sono il numero di computer come cluster o griglie, è scalabile in n numero di computer. Quindi un importante obiettivo di progettazione di MapReduce è che è scalabile a migliaia di macchine e quindi a 10.000 di dischi.
Efficienza economica
Poiché MapReduce funziona con la parallelizzazione dei dati sui nodi o sul numero di computer, i seguenti sono i motivi che lo rendono conveniente:
- Macchine per materie prime economiche anziché un supercomputer. Anche se economici sono inaffidabili.
-Rete di rete
-Tolleranza agli errori automatica, ovvero meno amministratori.
-È facile da usare, cioè richiede meno programmatori.

4. Quali sono le sfide di MapReduce?

Risposta:
Queste sono le domande frequenti sull'intervista di MapReduce poste in un'intervista. Le principali sfide di MapReduce sono le seguenti:
-I nodi economici falliscono, specialmente se ne hai molti
Il tempo medio tra guasti per 1 nodo è pari a 3 anni. Il tempo medio tra guasti per 1000 nodi è pari a 1 giorno. La soluzione è quella di integrare la tolleranza d'errore nel sistema stesso.
-La rete della sistemazione è uguale o implica una larghezza di banda ridotta
La soluzione per una larghezza di banda ridotta consiste nel trasferire il calcolo ai dati.
-Programmare i sistemi distribuiti è difficile
La soluzione per questo è che secondo il modello di programmazione parallela ai dati, gli utenti scrivono le funzioni "mappa" e "riduzione". Il sistema distribuisce il lavoro e gestisce i guasti.

5. Cos'è il modello di programmazione MapReduce?

Risposta:
Il modello di programmazione MapReduce si basa su un concetto chiamato record di valori-chiave. Fornisce inoltre paradigmi per l'elaborazione di dati paralleli. Per elaborare i dati in MapReduce, sia i dati di input che quelli di output devono essere mappati nel formato di più coppie chiave-valore. La singola coppia chiave-valore viene anche definita record. Il modello di programmazione MapReduce è costituito da una funzione Map () e una funzione Reduce. Il modello per questi è il seguente.
Funzione Mappa (): (K in, V in) list (K inter, V inter)
Funzione di riduzione (): (K inter, list (V inter)) list (K out, V out)

Parte 2 - Domande di intervista con MapReduce (Avanzate)

Diamo ora un'occhiata alle domande avanzate di intervista di MapReduce.

6. Quali sono i dettagli dell'esecuzione di MapReduce?

Risposta:
Nel caso dell'esecuzione di MapReduce, un singolo master controlla l'esecuzione del lavoro su più slave. Si preferisce che i mappatori vengano posizionati sullo stesso nodo o stesso rack del blocco di input in modo da ridurre al minimo l'utilizzo della rete. Inoltre, i mappatori salvano gli output sul disco locale prima di servirli ai riduttori. Ciò consente il ripristino in caso di crash di un riduttore e consente più riduttori rispetto ai nodi.

7. Che cos'è un combinatore?

Risposta:
Il combinatore, noto anche come semi-riduttore, opera accettando input dalla classe Map e passando le coppie chiave-valore di output alla classe Reducer. La funzione principale di un combinatore è di riassumere i record di output della mappa con lo stesso tasto. In altre parole, un combinatore è una funzione di aggregazione locale per tasti ripetuti prodotti dalla stessa mappa. Funziona per funzioni associative come SUM, COUNT e MAX. Diminuisce la dimensione dei dati intermedi in quanto è un riepilogo dell'aggregazione di valori per tutte le chiavi ripetitive.

Passiamo alle prossime domande di intervista di MapReduce.

8.Perché maiale? Perché non MapReduce?

Risposta:
• MapReduce consente al programmatore di svolgere una funzione di mappa seguita da una funzione di riduzione, ma lavorare su come adattare l'elaborazione dei dati a questo modello, che spesso richiede più fasi di MapReduce, può essere una sfida.
• Con Pig, le strutture dei dati sono molto più ricche, in quanto sono multivalore e nidificate e l'insieme di trasformazioni che è possibile applicare ai dati è molto più potente. Ad esempio, includono join che non sono possibili in MapReduce.
• Inoltre, Pig è un programma che trasforma la trasformazione in una serie di lavori MapReduce.

9.Mappa Riduci le critiche

Risposta:
Una critica importante di MapReduce è che il ciclo di sviluppo è molto lungo. Scrivere mappatori e riduttori, compilare e impacchettare il codice, inviare il lavoro e recuperare i risultati richiede tempo. Anche con lo streaming, che rimuove la fase di compilazione e pacchetto, l'esperienza richiede ancora molto tempo.

Articolo raccomandato

Questa è stata una guida all'elenco delle domande e risposte dell'intervista di MapReduce in modo che il candidato possa reprimere facilmente queste domande sull'intervista di MapReduce. Puoi anche consultare i seguenti articoli per saperne di più -

  1. Domande importanti di intervista di analisi dei dati
  2. 10 migliori domande di intervista sul modello di progettazione
  3. Domande di intervista su Elasticsearch
  4. Domande di intervista su Ruby più utili
  5. Come funziona MapReduce