Hadoop Cluster Intervista Domande e risposte

Lo scopo di questo articolo è di aiutare tutti gli aspiranti ai Big Data a rispondere a tutte le domande di intervista sul cluster Hadoop relative alla configurazione di Big Data Environment in un'organizzazione. Questo questionario sarà di aiuto nell'impostazione di Data Node, Name Node e nella definizione della capacità del server ospitato da demoni Big Data.

Quindi, se hai finalmente trovato il lavoro dei tuoi sogni in Hadoop Cluster ma ti stai chiedendo come rompere l'intervista di Hadoop Cluster e quali potrebbero essere le probabili domande di intervista di Hadoop Cluster. Ogni colloquio è diverso e anche la portata di un lavoro è diversa. Tenendo presente questo, abbiamo progettato le domande e le risposte più comuni per l'intervista a Hadoop Cluster per aiutarti a ottenere il successo nel tuo colloquio.

Alcune delle più importanti domande di intervista al cluster Hadoop che vengono poste frequentemente in un'intervista sono le seguenti:

1.Quali sono i principali componenti Hadoop nel cluster Hadoop?

Risposta :
Hadoop è un framework in cui elaboriamo i big data o Hadoop è la piattaforma in cui è possibile elaborare l'enorme quantità di dati sui server delle materie prime. Hadoop è la combinazione di molti componenti. Di seguito sono riportati i componenti principali nell'ambiente Hadoop.
Nome nodo : è il nodo principale che si occupa di tutte le informazioni dei nodi dati e della posizione di archiviazione dei dati in formato metadati.
Nodo nome secondario : funziona come nodo nome principale se il nodo nome primario scende.
HDFS (Hadoop Distributed File System) : si occupa di tutto l'archiviazione del cluster Hadoop.
Nodi dati : i nodi dati sono nodi slave. I dati effettivi vengono salvati sui nodi slave per l'elaborazione.
YARN (Yet Another Resource Negotiator) : un framework software per la scrittura delle applicazioni e l'elaborazione di grandi quantità di dati. Fornisce le stesse funzionalità di MapReduce e inoltre consentirebbe l'esecuzione parallela di ogni processo batch nel cluster Hadoop.

2. Come pianificare l'archiviazione dei dati nel cluster Hadoop?

Risposta :
L'archiviazione si basa sulla formula (Memoria = Ingestione giornaliera di dati * Replica).
Se il cluster Hadoop riceve dati da 120 TB su base giornaliera e disponiamo di un fattore di replica predefinito, il requisito di archiviazione dei dati giornaliero sarebbe
Requisiti di archiviazione = 120 TB (ingestione giornaliera di dati) * 3 (replica predefinita) => 360 TB
Di conseguenza, è necessario impostare un cluster di dati di almeno 360 TB per il fabbisogno giornaliero di dati.
L'archiviazione dipende anche dal requisito di conservazione dei dati. Nel caso in cui desideriamo che i dati vengano archiviati per 2 anni nello stesso cluster, quindi dobbiamo organizzare i nodi di dati secondo il requisito di conservazione.

3. Calcolare i numeri del nodo dati.

Risposta :
Dobbiamo calcolare un numero di nodi di dati richiesti per il cluster Hadoop. Supponiamo di avere server con JBOD da 10 dischi e che ogni disco abbia una dimensione di archiviazione di 4 TB, quindi ogni server ha una memoria di 40 TB. Il cluster Hadoop sta ottenendo dati da 120 TB al giorno e 360 ​​TB dopo aver applicato il fattore di replica predefinito.
No of Data Nodes = Ingestione giornaliera dei dati / capacità del nodo dati
No di nodi di dati = 360/40 => 9 nodi di dati
Pertanto, per il cluster Hadoop che ottiene 120 TB di dati con la configurazione sopra, è necessario impostare solo 9 nodi di dati.

4. Come modificare il fattore di replica nel cluster Hadoop?

Risposta :
Modifica il file hdfs-site.xml. Il percorso predefinito si trova nella cartella conf / della directory di installazione di Hadoop. cambia / aggiungi la seguente proprietà in hdfs-site.xml:
dfs.replication
3
Block Replication
Non è obbligatorio avere il fattore di replica 3. Può essere impostato anche su 1. Il fattore di replica 5 funziona anche nel cluster Hadoop. L'impostazione del valore predefinito rende il cluster più efficiente ed è richiesto un hardware minimo.
L'aumento del fattore di replica aumenterebbe il requisito hardware poiché la memorizzazione dei dati si moltiplica per fattore di replica.

5.Qual è la dimensione predefinita del blocco dati in Hadoop e come modificarla?

Risposta :
Dimensione del blocco ridurre / dividere i dati in blocchi e salvarli su nodi di dati diversi.
Per impostazione predefinita, la dimensione del blocco è 128 MB (in Apache Hadoop) e possiamo modificare la dimensione del blocco predefinita.
Modifica il file hdfs-site.xml. Il percorso predefinito si trova nella cartella conf / della directory di installazione di Hadoop. cambia / aggiungi la seguente proprietà in hdfs-site.xml:
dfs.block.size
134217728
Misura del blocco
la dimensione del blocco in byte è 134.217.728 o 128 MB. Inoltre, specificare la dimensione con il suffisso (senza distinzione tra maiuscole e minuscole) come k (chilo-), m (mega-), g (giga-) o t (tera-) per impostare la dimensione del blocco in KB, MB, TB ecc …

6. Per quanto tempo il cluster Hadoop dovrebbe conservare un file HDFS cancellato nella directory delete / trash?

Risposta :
"Fs.trash.interval" è il parametro che specifica per quanto tempo HDFS può conservare qualsiasi file eliminato nell'ambiente Hadoop per recuperare il file eliminato.
Il periodo di intervallo può essere definito solo in minuti. Per un intervallo di recupero di 2 giorni è necessario specificare la proprietà in un formato scorrevole.
Modifica il file core-site.xml e aggiungilo / modificalo usando la seguente proprietà
fs.trash.interval
2880
Per impostazione predefinita, l'intervallo di recupero è 0 ma Hadoop Administrator può aggiungere / modificare la proprietà sopra come richiesto.

7.Quali sono i comandi di base per avviare e arrestare i demoni Hadoop?

Risposta :
Tutti i comandi per avviare e arrestare i demoni memorizzati nella cartella sbin /.
./sbin/stop-all.sh - Per fermare tutti i demoni contemporaneamente.
hadoop-daemon.sh nome nodo iniziale
Hadoop-daemon.sh avvia il nodo dati
yarn-daemon.sh, avvia il gestore risorse
yarn-daemon.sh, avvia il gestore nodi
mr-jobhistory-daemon.sh avvia il server della cronologia

8. Qual è la proprietà per definire l'allocazione di memoria per le attività gestite da YARN?

Risposta :
La proprietà "yarn.nodemanager.resource.memory-mb" deve essere modificata / aggiunta per modificare l'allocazione di memoria per tutte le attività gestite da YARN.
Specifica la quantità di RAM in MB. Data Nodes richiede il 70% della RAM effettiva da utilizzare per YARN. Il nodo dati con 96 GB utilizzerà 68 GB per YARN, il resto della RAM viene utilizzato dal demone Data Node per "Non-YARN-Work"
Modifica il file "file.xml file" e aggiungi / modifica la seguente proprietà.
yarn.nodemanager.resource.memory-mb
68608
yarn.nodemanager.resource.memory-mb il valore predefinito è 8.192 MB (8 GB). Se i nodi di dati hanno una grande capacità di RAM, dobbiamo cambiare il valore fino al 70% altrimenti sprecheremo la nostra memoria.

9. Quali sono i consigli per il dimensionamento del nodo nome?

Risposta :
I seguenti dettagli sono raccomandati per l'impostazione del Nodo Master in una fase iniziale.
Processori: per i processi è sufficiente una singola CPU con 6-8 core.
Memoria RAM: per i server di elaborazione dati e lavori dovrebbe avere almeno 24-96 GB di RAM.
Archiviazione: poiché nessun dato HDFS è archiviato sul nodo Master. È possibile 1-2 TB come memoria locale
Poiché è difficile decidere carichi di lavoro futuri, progettare il cluster selezionando hardware come CPU, RAM e memoria che è facilmente aggiornabile nel tempo.

10.Quali sono le porte predefinite nel cluster Hadoop?

Risposta :

Nome demoneNumero porta predefinito
Nome nodo.50070
Nodi dati.50075
Nodo nome secondario.50090
Nodo Backup / Checkpoint.50105
Job Tracker.50030
Task tracker.50060

Articoli consigliati

Questa è stata una guida all'elenco delle domande e risposte sull'intervista del cluster Hadoop in modo che il candidato possa reprimere facilmente queste domande sull'intervista del cluster Hadoop. Puoi anche consultare i seguenti articoli per saperne di più -

  1. Domande di intervista di Elasticsearch e risposte e più utili
  2. 9 Incredibile MapReduce Intervista Domande e risposte
  3. 8 Guida più utile alle domande di intervista sui Big Data
  4. ETL Intervista Domande e risposte che dovresti sapere