Introduzione alle domande e risposte dell'intervista di Hbase

HBase è un popolare sistema di gestione di database NoSQL orientato alle colonne che funziona su Hadoop Distributed File System (HDFS). È adatto per set di dati sparsi, che sono comuni in molti casi di utilizzo di big data.

Ecco le 10 domande più frequenti sull'intervista di HBase del 2019 e le risposte: Quindi hai finalmente trovato il lavoro dei tuoi sogni in HBase ma ti stai chiedendo come rompere l'intervista di Hbase e quali potrebbero essere le probabili domande dell'intervista di Hbase del 2019. Ogni colloquio è diverso e anche la portata di un lavoro è diversa. Tenendo presente questo aspetto, abbiamo progettato le domande e le risposte più comuni sull'intervista di Hbase per aiutarti a ottenere il successo nel tuo colloquio. Queste domande sono divise in due parti:

Parte 1 - Domande di intervista con HBase (di base)

Questa prima parte tratta le domande e le risposte di base dell'intervista HBase.

1. Quando dovresti usare HBase?

Risposta:
Hbase non è adatto a tutti i casi d'uso. Uno scenario più adatto può essere identificato con i seguenti controlli:
Volume i.Data: dovrebbe avere petabyte di dati da elaborare in un ambiente distribuito.
ii.Applicazione: HBase non è adatto per i sistemi OLTP (Online Transaction Processing) che richiedono complesse transazioni multi-istruzione. Manca anche il supporto SQL complesso necessario per l'analisi relazionale.È preferito quando si dispone di una grande quantità di dati con un schema leggermente diverso.
iii. Hardware cluster: HBase funziona su HDFS. E HDFS funziona in modo efficiente con un gran numero di nodi (minimo 5). Quindi HBase può essere una buona selezione solo con un buon supporto hardware.
iv. RDBMS non tradizionale: Hbase non può supportare alcun caso d'uso che richiede funzionalità tradizionali come Unisci più tabelle, SQl complessi con funzioni nidificate o di finestre, ecc.
v. Accesso casuale rapido ai dati: se hai bisogno di un accesso casuale e in tempo reale ai tuoi dati, HBase è un candidato adatto. È anche perfetto per l'archiviazione di tabelle di grandi dimensioni con dati multi-strutturati.

2. Qual è la differenza tra Cassandra e HBase?

Risposta:
Sia HBase che Cassandra hanno distribuito database NoSQL per Big Data dall'ecosistema Hadoop. Entrambi costruiti per diversi casi d'uso.
HBase ha una sorta di architettura master-slave con diversi componenti come Zookeeper, Namenode, HBase Master (Hmaster) e Data Nodes ecc. Cassandra tratta tutti i nodi come master, il che significa che tutti i nodi sono uguali ed eseguono tutte le funzioni.
HBase è ottimizzato per le letture, la scrittura avviene solo sul nodo master e ha una forte coerenza per la lettura dopo la scrittura. Cassandra ha eccellenti prestazioni di lettura a riga singola se viene selezionata la consistenza finale.
Hbase non supporta nativamente indici secondari, Cassandra supporta indici secondari su famiglie di colonne in cui è noto il nome della colonna.
Inizialmente, Hbase è stato creato su Google e lo hanno chiamato BigTable. Anche ora le API di Bigtable e HBase sono compatibili. L'origine di Cassandra proviene da un documento per DynamoDB che è il database NoSQL di AWS.

Passiamo alle prossime domande di intervista HBase.

3. Quali sono i principali componenti di Hbase?

Risposta:
HBase a ha tre componenti importanti: HMaster, Region Server e ZooKeeper.
i.HBase Master - Le tabelle HBase sono divise in regioni. Mentre il Master di avvio decide quale regione assegnare a quale server di regione (il server di regione sarà un nodo in un cluster), gestisce anche le operazioni di metadati della tabella come crea o modifica lo schema. Questo componente svolge anche un ruolo importante nel recupero degli errori
ii. Region Server - Come accennato in precedenza, è qui che si verificano la scrittura e la lettura dei dati effettivi. Questi sono nodi cluster effettivi. Questo avrà regioni di molte tabelle che vengono decise iniziando e terminando le chiavi di riga. Un tipico server regionale può servire fino a un migliaio di regioni
iii.ZooKeeper - ZooKeeper è un framework di coordinamento dei cluster ampiamente utilizzato nell'ecosistema Hadoop.Zookeeper tiene traccia di tutti i server (server master e regionali) presenti nei contatti del cluster HMaster ZooKeeper e le notifiche vengono prodotte in caso di errori.

4. Che cos'è il filtro HBase Bloom?

Risposta:
Queste sono le domande frequenti sull'intervista di HBase poste in un'intervista. Un filtro Bloom HBase è un meccanismo efficiente per verificare se un file di archivio (quando qualcosa viene scritto su HBase, viene prima scritto in un archivio in memoria, una volta che questo memstore raggiunge una certa dimensione, viene scaricato su disco in un file di archivio ) contiene una riga o una cella riga-col specifica. Normalmente, l'unico modo per decidere se è presente una chiave di riga in un file di archivio è controllare l'indice di blocco del file, che ha la chiave di riga iniziale di ciascun blocco nel file di archivio. I filtri Bloom agiscono come una struttura di dati in memoria che aiuta a ridurre le letture del disco solo ai file che possono contenere quella riga - Non tutti i file di archivio. Quindi si comporta come un indice in memoria per indicare una probabilità di trovare una riga in un determinato file di archivio.

5. Che cos'è la compattazione? Spiega diversi tipi di esso.

Risposta:
HBase memorizza tutte le operazioni ricevute nell'area di memoria del memstore. Quando il buffer di memoria è pieno, viene scaricato sul disco. Poiché questo può creare molti piccoli file in HDFS, di volta in volta HBase può selezionare i file da compattare in uno più grande. Una compattazione viene chiamata Minore quando HBase sceglie di compattare solo alcuni dei file H, ma non tutti. In una compattazione maggiore, tutti i file vengono scelti per essere compattati insieme. Una compattazione principale funziona come una minore, tranne per il fatto che i marker di eliminazione possono essere rimossi dopo che sono stati applicati a tutte le celle correlate e verranno eliminate anche tutte le versioni extra della stessa cella.

Parte 2 - Domande di intervista a HBase (avanzate)

Diamo ora un'occhiata alle domande di intervista HBase avanzate.

6.Come dati della versione di HBase?

Risposta:
Quando un pezzo di dati viene inserito / aggiornato / cancellato HBase creerà una nuova versione per quella colonna. La cancellazione effettiva avviene solo durante la compattazione. Se una determinata cella supera un numero di versioni consentite, le versioni aggiuntive verranno eliminate durante la compattazione

7. Qual è la differenza tra ottenere e scansionare?

Risposta:
Get restituirà una sola riga dalla tabella Hbase in base alla chiave di riga fornita. Il comando di scansione restituisce un set di righe in base alla condizione di ricerca specificata. Di solito get è più veloce della scansione. Quindi dovrebbe preferire usarlo se possibile.

Passiamo alle prossime domande di intervista HBase.

8. Cosa succede quando si elimina una riga?

Risposta:
Al momento dell'eliminazione, i dati dei comandi non vengono eliminati fisicamente dal file system, ma diventano invisibili impostando un indicatore. La cancellazione fisica avviene durante una compattazione
I marcatori di eliminazione di colonne, versioni e famiglie sono tre diversi tipi di marcatori che contrassegnano rispettivamente la cancellazione di una colonna, una versione di una colonna e una famiglia di colonne.

9. Spiegare la differenza tra HBase e Hive.

Risposta:
Questa è la domanda di intervista HBase avanzata posta in un'intervista. HBase e Hive sono entrambe tecnologie Hadoop completamente diverse per l'elaborazione dei dati. Hive è un framework di archiviazione distribuito compatibile con SQL relazionale, mentre HBase è un archivio di valori-chiave NoSQL. Hive funge da strato di astrazione sopra Hadoop con supporto SQL. Il modello di accesso ai dati di base è molto limitato con due operazioni principali: get e scan. HBase è ideale per l'elaborazione dei dati in tempo reale, dove Hive è la scelta ideale per l'elaborazione dei dati batch.

10. Cosa sono Hlog e HFile?

Risposta:
HLog è il file di registro write-ahead, noto anche come WAL e HFile è il file di archiviazione dei dati reali. I dati vengono prima scritti nel file di registro write-ahead e anche scritti in MemStore. Una volta che MemStore è pieno, il contenuto di MemStore viene scaricato sul disco in HFiles.

Articolo raccomandato

Questa è stata una guida all'elenco delle domande e risposte all'intervista di Hbase in modo che il candidato possa reprimere facilmente queste domande sull'intervista di Hbase. Puoi anche consultare i seguenti articoli per saperne di più -

  1. Domande utili per l'intervista di gruppo
  2. Suggerimenti importanti per l'intervista di base
  3. Passaggi essenziali per la preparazione dell'intervista
  4. Intervista Domande da porre ad un candidato finanziario