Introduzione a Hadoop Admin Intervista Domande e risposte
Quindi hai finalmente trovato il lavoro dei tuoi sogni in Hadoop Admin ma ti stai chiedendo come rompere l'intervista di Hadoop Admin e quali potrebbero essere le probabili domande di intervista di Hadoop Admin. Ogni colloquio è diverso e anche la portata di un lavoro è diversa. Tenendo presente tutto ciò, abbiamo progettato le domande e le risposte più comuni relative al colloquio con gli amministratori di Hadoop per aiutarti a ottenere il successo durante il colloquio.
Di seguito sono riportate le domande di intervista dell'amministratore di Hadoop che ti aiuteranno a risolvere un'intervista con Hadoop.
1. Che cos'è la consapevolezza del rack? E perché è necessario?
Risposta:
La consapevolezza del rack riguarda la distribuzione di nodi di dati su più rack. HDFS segue l'algoritmo di consapevolezza del rack per posizionare i blocchi di dati. Un rack contiene più server. E per un cluster, potrebbero esserci più rack. Diciamo che esiste un cluster Hadoop impostato con 12 nodi. Potrebbero esserci 3 rack con 4 server su ciascuno. Tutti e 3 i rack sono collegati in modo che tutti e 12 i nodi siano collegati e formino un cluster. Nel decidere il numero di rack, il punto importante da considerare è il fattore di replica. Se ci sono 100 GB di dati che fluiranno ogni giorno con il fattore di replica 3. Quindi saranno 300 GB di dati che dovranno risiedere nel cluster. È un'opzione migliore per replicare i dati tra i rack. Anche se un nodo si arresta, la replica si troverà in un altro rack.
2. Qual è la dimensione del blocco predefinita e come viene definita?
Risposta:
128 MB ed è definito in hdfs-site.xml e anche questo è personalizzabile a seconda del volume dei dati e del livello di accesso. Ad esempio, 100 GB di dati che fluiscono in un giorno, i dati vengono separati e archiviati in tutto il cluster. Quale sarà il numero di file? 800 file. (1024 * 100/128) (1024 à convertito in GB in MB.) Esistono due modi per impostare la dimensione del blocco dati personalizzato.
- hadoop fs -D fs.local.block.size = 134217728 (in bit)
- In hdfs-site.xml aggiungi questa proprietà à block.size con la dimensione dei bit.
Se si modifica la dimensione predefinita in 512 MB poiché la dimensione dei dati è enorme, il numero di file generato sarà 200. (1024 * 100/512)
3. Come si ottiene il report del file system hdfs? Informazioni sulla disponibilità del disco e sul numero di nodi attivi?
Risposta:
Comando: sudo -u hdfs dfsadmin –report
Questa è la lista di informazioni che mostra,
- Capacità configurata - Capacità totale disponibile in hdfs
- Capacità attuale: questa è la quantità totale di spazio allocato per le risorse in modo che risiedano accanto al metastore e all'uso dello spazio.
- DFS rimanente: è la quantità di spazio di archiviazione ancora disponibile per l'HDFS per memorizzare più file
- DFS utilizzato: è lo spazio di archiviazione utilizzato da HDFS.
- DFS utilizzato% - In percentuale
- Sotto blocchi replicati - Numero di blocchi
- Blocchi con repliche danneggiate - Se presenti blocchi danneggiati
- Blocchi mancanti
- Blocchi mancanti (con fattore di replica 1)
4. Che cos'è il bilanciatore Hadoop e perché è necessario?
Risposta:
I dati distribuiti tra i nodi non sono distribuiti nella giusta proporzione, il che significa che l'utilizzo di ciascun nodo potrebbe non essere bilanciato. Un nodo potrebbe essere sovrautilizzato e l'altro potrebbe essere sottoutilizzato. Ciò porta ad avere un elevato effetto sui costi durante l'esecuzione di qualsiasi processo e finirebbe con un uso intenso di quei nodi. Per risolvere questo problema, viene utilizzato il bilanciatore Hadoop che bilancerà l'utilizzo dei dati nei nodi. Pertanto, ogni volta che viene eseguito un bilanciamento, i dati vengono spostati attraverso i punti in cui i nodi sottoutilizzati vengono riempiti e i nodi sopra utilizzati verranno liberati.
5. Differenza tra Cloudera e Ambari?
Risposta:
Manager Cloudera | Ambari |
Strumento di amministrazione per Cloudera | Strumento di amministrazione per Horton funziona |
Monitora e gestisce l'intero cluster e segnala l'utilizzo e eventuali problemi | Monitora e gestisce l'intero cluster e segnala l'utilizzo e eventuali problemi |
Viene fornito con il servizio a pagamento Cloudera | Open source |
6. Quali sono le principali azioni eseguite dall'amministratore di Hadoop?
Risposta:
Monitorare l'integrità del cluster -Ci sono molte pagine dell'applicazione che devono essere monitorate se vengono eseguiti processi. (Server della cronologia dei lavori, gestore delle risorse YARN, gestore / ambizione Cloudera a seconda della distribuzione)
attiva sicurezza - SSL o Kerberos
Ottimizza le prestazioni : bilanciamento Hadoop
Aggiungi nuovi nodi di dati secondo necessità - Modifiche e configurazioni dell'infrastruttura
Facoltativo per attivare MapReduce Job Tracking Server di monitoraggio à A volte il riavvio dei servizi aiuta a liberare memoria cache. Questo è quando il cluster con un processo vuoto.
7. Che cos'è Kerberos?
Risposta:
È un'autenticazione richiesta per la sincronizzazione di ciascun servizio per eseguire il processo. Si consiglia di abilitare Kerberos. Poiché abbiamo a che fare con il calcolo distribuito, è sempre buona norma disporre della crittografia durante l'accesso ai dati e l'elaborazione. Poiché ogni nodo è collegato e qualsiasi passaggio di informazioni avviene attraverso una rete. Poiché Hadoop utilizza Kerberos, le password non vengono inviate attraverso le reti. Al contrario, le password vengono utilizzate per calcolare le chiavi di crittografia. I messaggi vengono scambiati tra il client e il server. In termini semplici, Kerberos si fornisce reciprocamente identità (nodi) in modo sicuro con la crittografia.
Configurazione in core-site.xml
Hadoop.security.authentication: Kerberos
8. Qual è la lista importante dei comandi hdfs?
Risposta:
comandi | Scopo |
hdfs dfs –ls | Per elencare i file dal filesystem hdfs. |
Hdfs dfs –put | Copia il file dal sistema locale nel filesystem hdfs |
Hdfs dfs –chmod 777 | Dai un permesso di lettura, scrittura ed esecuzione al file |
Hdfs dfs –get | Copia il file dal filesystem hdfs al filesystem locale |
Hdfs dfs –cat | Visualizza il contenuto del file dal filesystem hdfs |
Hdfs dfs –rm | Rimuovi il file dal filesystem hdfs. Ma verrà spostato nel percorso del file cestino (è come un cestino in Windows) |
Hdfs dfs –rm –skipTrash | Rimuove il file in modo permanente dal cluster. |
Hdfs dfs –touchz | Crea un file nel filesystem hdfs |
9. Come controllare i log di un lavoro Hadoop inviato nel cluster e come terminare il processo già in esecuzione?
Risposta:
log dei filati –applicationId - Il master dell'applicazione genera registri sul suo contenitore e verrà aggiunto con l'id che genera. Ciò sarà utile per monitorare lo stato di esecuzione del processo e le informazioni del registro.
thread application –kill - Se è necessario terminare un processo esistente in esecuzione nel cluster, viene utilizzato il comando kill nel punto in cui viene utilizzato l'id dell'applicazione per terminare il lavoro nel cluster.
Articolo raccomandato
Questa è stata una guida all'elenco delle domande e risposte sull'intervista dell'amministratore di Hadoop in modo che il candidato possa reprimere facilmente queste domande sull'intervista dell'amministratore di Hadoop. Puoi anche consultare i seguenti articoli per saperne di più
- Hadoop Cluster Intervista Domande e risposte - I 10 più utili
- Domande di intervista sulla modellazione dei dati - 10 domande importanti
- Domande sul colloquio di sistema SAS - Le 10 domande più utili