Domande di intervista all'amministratore di Hadoop - Più utile e richiesto

Introduzione a Hadoop Admin Intervista Domande e risposte

Quindi hai finalmente trovato il lavoro dei tuoi sogni in Hadoop Admin ma ti stai chiedendo come rompere l'intervista di Hadoop Admin e quali potrebbero essere le probabili domande di intervista di Hadoop Admin. Ogni colloquio è diverso e anche la portata di un lavoro è diversa. Tenendo presente tutto ciò, abbiamo progettato le domande e le risposte più comuni relative al colloquio con gli amministratori di Hadoop per aiutarti a ottenere il successo durante il colloquio.

Di seguito sono riportate le domande di intervista dell'amministratore di Hadoop che ti aiuteranno a risolvere un'intervista con Hadoop.

1. Che cos'è la consapevolezza del rack? E perché è necessario?

Risposta:
La consapevolezza del rack riguarda la distribuzione di nodi di dati su più rack. HDFS segue l'algoritmo di consapevolezza del rack per posizionare i blocchi di dati. Un rack contiene più server. E per un cluster, potrebbero esserci più rack. Diciamo che esiste un cluster Hadoop impostato con 12 nodi. Potrebbero esserci 3 rack con 4 server su ciascuno. Tutti e 3 i rack sono collegati in modo che tutti e 12 i nodi siano collegati e formino un cluster. Nel decidere il numero di rack, il punto importante da considerare è il fattore di replica. Se ci sono 100 GB di dati che fluiranno ogni giorno con il fattore di replica 3. Quindi saranno 300 GB di dati che dovranno risiedere nel cluster. È un'opzione migliore per replicare i dati tra i rack. Anche se un nodo si arresta, la replica si troverà in un altro rack.

2. Qual è la dimensione del blocco predefinita e come viene definita?

Risposta:
128 MB ed è definito in hdfs-site.xml e anche questo è personalizzabile a seconda del volume dei dati e del livello di accesso. Ad esempio, 100 GB di dati che fluiscono in un giorno, i dati vengono separati e archiviati in tutto il cluster. Quale sarà il numero di file? 800 file. (1024 * 100/128) (1024 à convertito in GB in MB.) Esistono due modi per impostare la dimensione del blocco dati personalizzato.

hadoop fs -D fs.local.block.size = 134217728 (in bit)
In hdfs-site.xml aggiungi questa proprietà à block.size con la dimensione dei bit.

Se si modifica la dimensione predefinita in 512 MB poiché la dimensione dei dati è enorme, il numero di file generato sarà 200. (1024 * 100/512)

3. Come si ottiene il report del file system hdfs? Informazioni sulla disponibilità del disco e sul numero di nodi attivi?

Risposta:
Comando: sudo -u hdfs dfsadmin –report

Questa è la lista di informazioni che mostra,

Capacità configurata - Capacità totale disponibile in hdfs
Capacità attuale: questa è la quantità totale di spazio allocato per le risorse in modo che risiedano accanto al metastore e all'uso dello spazio.
DFS rimanente: è la quantità di spazio di archiviazione ancora disponibile per l'HDFS per memorizzare più file
DFS utilizzato: è lo spazio di archiviazione utilizzato da HDFS.
DFS utilizzato% - In percentuale
Sotto blocchi replicati - Numero di blocchi
Blocchi con repliche danneggiate - Se presenti blocchi danneggiati
Blocchi mancanti
Blocchi mancanti (con fattore di replica 1)

4. Che cos'è il bilanciatore Hadoop e perché è necessario?

Risposta:
I dati distribuiti tra i nodi non sono distribuiti nella giusta proporzione, il che significa che l'utilizzo di ciascun nodo potrebbe non essere bilanciato. Un nodo potrebbe essere sovrautilizzato e l'altro potrebbe essere sottoutilizzato. Ciò porta ad avere un elevato effetto sui costi durante l'esecuzione di qualsiasi processo e finirebbe con un uso intenso di quei nodi. Per risolvere questo problema, viene utilizzato il bilanciatore Hadoop che bilancerà l'utilizzo dei dati nei nodi. Pertanto, ogni volta che viene eseguito un bilanciamento, i dati vengono spostati attraverso i punti in cui i nodi sottoutilizzati vengono riempiti e i nodi sopra utilizzati verranno liberati.

5. Differenza tra Cloudera e Ambari?

Risposta:

Manager Cloudera	Ambari
Strumento di amministrazione per Cloudera	Strumento di amministrazione per Horton funziona
Monitora e gestisce l'intero cluster e segnala l'utilizzo e eventuali problemi	Monitora e gestisce l'intero cluster e segnala l'utilizzo e eventuali problemi
Viene fornito con il servizio a pagamento Cloudera	Open source

6. Quali sono le principali azioni eseguite dall'amministratore di Hadoop?

Risposta:
Monitorare l'integrità del cluster -Ci sono molte pagine dell'applicazione che devono essere monitorate se vengono eseguiti processi. (Server della cronologia dei lavori, gestore delle risorse YARN, gestore / ambizione Cloudera a seconda della distribuzione)

attiva sicurezza - SSL o Kerberos

Ottimizza le prestazioni : bilanciamento Hadoop

Aggiungi nuovi nodi di dati secondo necessità - Modifiche e configurazioni dell'infrastruttura

Facoltativo per attivare MapReduce Job Tracking Server di monitoraggio à A volte il riavvio dei servizi aiuta a liberare memoria cache. Questo è quando il cluster con un processo vuoto.

7. Che cos'è Kerberos?

Risposta:
È un'autenticazione richiesta per la sincronizzazione di ciascun servizio per eseguire il processo. Si consiglia di abilitare Kerberos. Poiché abbiamo a che fare con il calcolo distribuito, è sempre buona norma disporre della crittografia durante l'accesso ai dati e l'elaborazione. Poiché ogni nodo è collegato e qualsiasi passaggio di informazioni avviene attraverso una rete. Poiché Hadoop utilizza Kerberos, le password non vengono inviate attraverso le reti. Al contrario, le password vengono utilizzate per calcolare le chiavi di crittografia. I messaggi vengono scambiati tra il client e il server. In termini semplici, Kerberos si fornisce reciprocamente identità (nodi) in modo sicuro con la crittografia.

Configurazione in core-site.xml
Hadoop.security.authentication: Kerberos

8. Qual è la lista importante dei comandi hdfs?

Risposta:

comandi	Scopo
hdfs dfs –ls	Per elencare i file dal filesystem hdfs.
Hdfs dfs –put	Copia il file dal sistema locale nel filesystem hdfs
Hdfs dfs –chmod 777	Dai un permesso di lettura, scrittura ed esecuzione al file
Hdfs dfs –get	Copia il file dal filesystem hdfs al filesystem locale
Hdfs dfs –cat	Visualizza il contenuto del file dal filesystem hdfs
Hdfs dfs –rm	Rimuovi il file dal filesystem hdfs. Ma verrà spostato nel percorso del file cestino (è come un cestino in Windows)
Hdfs dfs –rm –skipTrash	Rimuove il file in modo permanente dal cluster.
Hdfs dfs –touchz	Crea un file nel filesystem hdfs

9. Come controllare i log di un lavoro Hadoop inviato nel cluster e come terminare il processo già in esecuzione?

Risposta:
log dei filati –applicationId - Il master dell'applicazione genera registri sul suo contenitore e verrà aggiunto con l'id che genera. Ciò sarà utile per monitorare lo stato di esecuzione del processo e le informazioni del registro.

thread application –kill - Se è necessario terminare un processo esistente in esecuzione nel cluster, viene utilizzato il comando kill nel punto in cui viene utilizzato l'id dell'applicazione per terminare il lavoro nel cluster.

Articolo raccomandato

Questa è stata una guida all'elenco delle domande e risposte sull'intervista dell'amministratore di Hadoop in modo che il candidato possa reprimere facilmente queste domande sull'intervista dell'amministratore di Hadoop. Puoi anche consultare i seguenti articoli per saperne di più

Hadoop Cluster Intervista Domande e risposte - I 10 più utili
Domande di intervista sulla modellazione dei dati - 10 domande importanti
Domande sul colloquio di sistema SAS - Le 10 domande più utili

Domande di intervista all'amministratore di Hadoop - Più utile e richiesto

Sommario:

Introduzione a Hadoop Admin Intervista Domande e risposte

1. Che cos'è la consapevolezza del rack? E perché è necessario?

2. Qual è la dimensione del blocco predefinita e come viene definita?

3. Come si ottiene il report del file system hdfs? Informazioni sulla disponibilità del disco e sul numero di nodi attivi?

4. Che cos'è il bilanciatore Hadoop e perché è necessario?

5. Differenza tra Cloudera e Ambari?

6. Quali sono le principali azioni eseguite dall'amministratore di Hadoop?

7. Che cos'è Kerberos?

8. Qual è la lista importante dei comandi hdfs?

9. Come controllare i log di un lavoro Hadoop inviato nel cluster e come terminare il processo già in esecuzione?

Articolo raccomandato

Funzione RATE in Excel (formula, esempi) - Come utilizzare RATE in Excel?

Esercizio di rebranding - 6 metodi di rebranding ed evitare le insidie

10 cose per ricostruire la tua credibilità dopo aver incasinato sul lavoro

Test di recupero - Ciclo di vita e funzionamento dei test di recupero

Formula del PIL reale - Calcolatrice (esempi con modello Excel)

Trasforma il testo in Photoshop: effetti di distorsione e prospettiva 3D

Tipo sfocato modificabile con stili di livello in Photoshop

Come posizionare un'immagine nel testo con Photoshop CC e CS6

Come personalizzare la barra degli strumenti in Photoshop CC

Tratto di testo con un pennello in Photoshop

Tempo contro denaro - Le 10 migliori differenze da imparare (con infografica)

Formula guadagnata per interessi - Calcolatrice (modello Excel)

Formula del rapporto sugli utili guadagnati dal Times - Esempi con modello di Excel

Formula del valore del denaro nel tempo - Calcolatrice (modello Excel)

Suggerimenti per la preparazione al colloquio - I 4 suggerimenti per la preparazione dell'intervista