Introduzione a Hadoop Admin Intervista Domande e risposte

Quindi hai finalmente trovato il lavoro dei tuoi sogni in Hadoop Admin ma ti stai chiedendo come rompere l'intervista di Hadoop Admin e quali potrebbero essere le probabili domande di intervista di Hadoop Admin. Ogni colloquio è diverso e anche la portata di un lavoro è diversa. Tenendo presente tutto ciò, abbiamo progettato le domande e le risposte più comuni relative al colloquio con gli amministratori di Hadoop per aiutarti a ottenere il successo durante il colloquio.

Di seguito sono riportate le domande di intervista dell'amministratore di Hadoop che ti aiuteranno a risolvere un'intervista con Hadoop.

1. Che cos'è la consapevolezza del rack? E perché è necessario?

Risposta:
La consapevolezza del rack riguarda la distribuzione di nodi di dati su più rack. HDFS segue l'algoritmo di consapevolezza del rack per posizionare i blocchi di dati. Un rack contiene più server. E per un cluster, potrebbero esserci più rack. Diciamo che esiste un cluster Hadoop impostato con 12 nodi. Potrebbero esserci 3 rack con 4 server su ciascuno. Tutti e 3 i rack sono collegati in modo che tutti e 12 i nodi siano collegati e formino un cluster. Nel decidere il numero di rack, il punto importante da considerare è il fattore di replica. Se ci sono 100 GB di dati che fluiranno ogni giorno con il fattore di replica 3. Quindi saranno 300 GB di dati che dovranno risiedere nel cluster. È un'opzione migliore per replicare i dati tra i rack. Anche se un nodo si arresta, la replica si troverà in un altro rack.

2. Qual è la dimensione del blocco predefinita e come viene definita?

Risposta:
128 MB ed è definito in hdfs-site.xml e anche questo è personalizzabile a seconda del volume dei dati e del livello di accesso. Ad esempio, 100 GB di dati che fluiscono in un giorno, i dati vengono separati e archiviati in tutto il cluster. Quale sarà il numero di file? 800 file. (1024 * 100/128) (1024 à convertito in GB in MB.) Esistono due modi per impostare la dimensione del blocco dati personalizzato.

  1. hadoop fs -D fs.local.block.size = 134217728 (in bit)
  2. In hdfs-site.xml aggiungi questa proprietà à block.size con la dimensione dei bit.

Se si modifica la dimensione predefinita in 512 MB poiché la dimensione dei dati è enorme, il numero di file generato sarà 200. (1024 * 100/512)

3. Come si ottiene il report del file system hdfs? Informazioni sulla disponibilità del disco e sul numero di nodi attivi?

Risposta:
Comando: sudo -u hdfs dfsadmin –report

Questa è la lista di informazioni che mostra,

  1. Capacità configurata - Capacità totale disponibile in hdfs
  2. Capacità attuale: questa è la quantità totale di spazio allocato per le risorse in modo che risiedano accanto al metastore e all'uso dello spazio.
  3. DFS rimanente: è la quantità di spazio di archiviazione ancora disponibile per l'HDFS per memorizzare più file
  4. DFS utilizzato: è lo spazio di archiviazione utilizzato da HDFS.
  5. DFS utilizzato% - In percentuale
  6. Sotto blocchi replicati - Numero di blocchi
  7. Blocchi con repliche danneggiate - Se presenti blocchi danneggiati
  8. Blocchi mancanti
  9. Blocchi mancanti (con fattore di replica 1)

4. Che cos'è il bilanciatore Hadoop e perché è necessario?

Risposta:
I dati distribuiti tra i nodi non sono distribuiti nella giusta proporzione, il che significa che l'utilizzo di ciascun nodo potrebbe non essere bilanciato. Un nodo potrebbe essere sovrautilizzato e l'altro potrebbe essere sottoutilizzato. Ciò porta ad avere un elevato effetto sui costi durante l'esecuzione di qualsiasi processo e finirebbe con un uso intenso di quei nodi. Per risolvere questo problema, viene utilizzato il bilanciatore Hadoop che bilancerà l'utilizzo dei dati nei nodi. Pertanto, ogni volta che viene eseguito un bilanciamento, i dati vengono spostati attraverso i punti in cui i nodi sottoutilizzati vengono riempiti e i nodi sopra utilizzati verranno liberati.

5. Differenza tra Cloudera e Ambari?

Risposta:

Manager ClouderaAmbari
Strumento di amministrazione per ClouderaStrumento di amministrazione per Horton funziona
Monitora e gestisce l'intero cluster e segnala l'utilizzo e eventuali problemiMonitora e gestisce l'intero cluster e segnala l'utilizzo e eventuali problemi
Viene fornito con il servizio a pagamento ClouderaOpen source

6. Quali sono le principali azioni eseguite dall'amministratore di Hadoop?

Risposta:
Monitorare l'integrità del cluster -Ci sono molte pagine dell'applicazione che devono essere monitorate se vengono eseguiti processi. (Server della cronologia dei lavori, gestore delle risorse YARN, gestore / ambizione Cloudera a seconda della distribuzione)

attiva sicurezza - SSL o Kerberos

Ottimizza le prestazioni : bilanciamento Hadoop

Aggiungi nuovi nodi di dati secondo necessità - Modifiche e configurazioni dell'infrastruttura

Facoltativo per attivare MapReduce Job Tracking Server di monitoraggio à A volte il riavvio dei servizi aiuta a liberare memoria cache. Questo è quando il cluster con un processo vuoto.

7. Che cos'è Kerberos?

Risposta:
È un'autenticazione richiesta per la sincronizzazione di ciascun servizio per eseguire il processo. Si consiglia di abilitare Kerberos. Poiché abbiamo a che fare con il calcolo distribuito, è sempre buona norma disporre della crittografia durante l'accesso ai dati e l'elaborazione. Poiché ogni nodo è collegato e qualsiasi passaggio di informazioni avviene attraverso una rete. Poiché Hadoop utilizza Kerberos, le password non vengono inviate attraverso le reti. Al contrario, le password vengono utilizzate per calcolare le chiavi di crittografia. I messaggi vengono scambiati tra il client e il server. In termini semplici, Kerberos si fornisce reciprocamente identità (nodi) in modo sicuro con la crittografia.

Configurazione in core-site.xml
Hadoop.security.authentication: Kerberos

8. Qual è la lista importante dei comandi hdfs?

Risposta:

comandiScopo
hdfs dfs –lsPer elencare i file dal filesystem hdfs.
Hdfs dfs –putCopia il file dal sistema locale nel filesystem hdfs
Hdfs dfs –chmod 777Dai un permesso di lettura, scrittura ed esecuzione al file
Hdfs dfs –getCopia il file dal filesystem hdfs al filesystem locale
Hdfs dfs –catVisualizza il contenuto del file dal filesystem hdfs
Hdfs dfs –rmRimuovi il file dal filesystem hdfs. Ma verrà spostato nel percorso del file cestino (è come un cestino in Windows)
Hdfs dfs –rm –skipTrashRimuove il file in modo permanente dal cluster.
Hdfs dfs –touchzCrea un file nel filesystem hdfs

9. Come controllare i log di un lavoro Hadoop inviato nel cluster e come terminare il processo già in esecuzione?

Risposta:
log dei filati –applicationId - Il master dell'applicazione genera registri sul suo contenitore e verrà aggiunto con l'id che genera. Ciò sarà utile per monitorare lo stato di esecuzione del processo e le informazioni del registro.

thread application –kill - Se è necessario terminare un processo esistente in esecuzione nel cluster, viene utilizzato il comando kill nel punto in cui viene utilizzato l'id dell'applicazione per terminare il lavoro nel cluster.

Articolo raccomandato

Questa è stata una guida all'elenco delle domande e risposte sull'intervista dell'amministratore di Hadoop in modo che il candidato possa reprimere facilmente queste domande sull'intervista dell'amministratore di Hadoop. Puoi anche consultare i seguenti articoli per saperne di più

  1. Hadoop Cluster Intervista Domande e risposte - I 10 più utili
  2. Domande di intervista sulla modellazione dei dati - 10 domande importanti
  3. Domande sul colloquio di sistema SAS - Le 10 domande più utili