Introduzione a Data Engineer Interview Domande e risposte

Ingegneria dei dati è un termine in cui tutti ne sono consapevoli ed è piuttosto popolare nel campo dei Big Data. L'ingegneria dei dati si riferisce a Data Infrastructure o Data Architecture. I dati grezzi generati da diverse fonti come social media, telefoni cellulari, www (internet), devono essere trasformati, puliti, profilati e aggregati per le esigenze aziendali. Questi dati grezzi sono anche definiti Dark Data. La pratica di progettare, progettare e implementare il sistema di elaborazione dei dati aiuta a convertire i dati in una parte di informazioni o set di dati appropriati, tali informazioni o set di dati è definito come Ingegneria dei dati.

Di seguito è riportato l'elenco delle principali domande e risposte dell'intervista del Data Engineer 2019:

Se stai cercando un lavoro correlato a Data Engineer, devi prepararti per le domande dell'intervista di Data Engineer 2019. Sebbene ogni domanda di colloquio sull'ingegnere dei dati sia diversa e anche la portata di un lavoro sia diversa, possiamo aiutarti con le migliori domande di intervista sull'ingegnere di dati con le risposte, che ti aiuteranno a fare il salto e ottenere il successo nella tua intervista di ingegnere di dati.

1. Che cos'è l'ingegneria dei dati?

Risposta:
Data engineering è un termine molto popolare nel campo dei Big Data e si riferisce principalmente a Data Infrastructure o Data Architecture.
I dati generati da molte fonti come social media, telefoni cellulari, www (internet) sono dati non elaborati. Deve essere trasformato, pulito, profilato e aggregato per le esigenze aziendali. Possiamo chiamare questi dati grezzi come dati oscuri su cui accenderemo la luce per renderli utili. La pratica di progettare, progettare e implementare il sistema di elaborazione dei dati che aiuterà a convertire i dati in informazioni utili è chiamata Ingegneria dei dati.

2. Spiegare il lavoro quotidiano di un ingegnere di dati?

Risposta:
Il lavoro quotidiano dell'ingegnere dati consiste in:
un. gestione della gestione dei dati all'interno dell'organizzazione
b. gestione e manutenzione di sistemi di origine di dati e aree di gestione temporanea
c. facendo ETL o ELT e trasformazione dei dati
d. semplificazione della pulizia dei dati e miglioramento della deduplicazione e della costruzione dei dati
e. realizzazione ed estrazione di query di dati ad hoc
Vedi di seguito la visualizzazione che informa su ciò su cui lavora un ingegnere di dati: -

3. Hai esperienza con la modellazione dei dati?

Risposta:
Si può dire che ha lavorato a un progetto per un cliente di assicurazione finanziaria / sanitaria in cui hanno utilizzato strumenti ETL come Informatica / Talend / Pentaho ecc. Per trasformare ed elaborare i dati recuperati da un database MySQL / RDS / SQL e inviare fornire queste informazioni ai fornitori che possono aiutare ad aumentare i loro ricavi. Si può mostrare sotto l'architettura di alto livello del modello di dati. Consiste in una chiave primaria, entità, attributi, relazione, vincoli ecc.

4. Quali sono i diversi tipi di schemi di progettazione nella modellazione dati? Spiegare con un esempio?

Risposta:
Esistono due tipi di schemi nella modellazione dei dati:
un. Star Schema
Questo schema è diviso in due una è la tabella dei fatti e l'altra è la tabella delle dimensioni in cui tutte le tabelle delle dimensioni sono collegate a una tabella dei fatti. La tabella esterna infatti si riferisce alle chiavi primarie presenti nelle tabelle dimensionali. Vedi sotto l'architettura dello schema a stella:

b. Schema di fiocchi di neve
In questo schema il livello di normalizzazione è aumentato, qui la tabella dei fatti rimarrà la stessa dello schema a stella, qui le tabelle delle dimensioni sono normalizzate. A causa di molti strati di tabelle delle dimensioni, sembra un fiocco di neve, da cui il nome schema a fiocco di neve. Vedi sotto l'architettura: -

5. Quale strumento ETL stai usando e come è meglio confrontarlo con gli altri?

Risposta:
Si può dire che ha usato Informatica come strumento ETL a causa di molti punti, prima di tutto è che secondo il Magic Quadrant di Gartner per gli strumenti di integrazione dei dati Informatica è posizionata come leader per il decimo anno consecutivo. È facile da usare e da imparare e ha funzionalità per connettersi con una varietà diversa di dati e tipi di dati di origine, componenti riutilizzabili e funzionalità che lo rendono il preferito dagli sviluppatori ETL. Ha anche un proprio scheduler che è un altro vantaggio, in cui altri strumenti ETL devono utilizzare uno scheduler esterno per pianificare i lavori.

6. Quali tecnologie / linguaggio di programmazione si dovrebbe avere / Imparare a essere un ingegnere dei dati?

Risposta:
Matematica (algebra lineare e probabilità)
Statistiche (statistiche riassuntive)
Tecniche di apprendimento automatico
Lingue R e SAS
Database SQL, Hive QL
Python (usato principalmente)
Oltre a questi, si dovrebbe avere una conoscenza del database di problem solving, analitica e architettonica.

7. Quali sono alcuni problemi comuni che devono affrontare gli ingegneri dei dati?

Risposta:
1. Integrazione in tempo reale / integrazione continua
2. La memorizzazione di enormi quantità di dati è un problema, le informazioni da tali dati sono un altro problema.
3. Quali strumenti possono essere utilizzati per offrire prestazioni, archiviazione, efficienza e risultati ottimali.
4. Lo spazio di archiviazione è ridimensionato? Supponiamo come sapere che per elaborare l'intero set di dati quanto tempo ci vorrà?
5. Considerando i processori e la configurazione della RAM
6. Come gestire i guasti, la tolleranza agli errori è presente o no?

8. In che modo Data Architect è diverso da Data Engineer?

Risposta:
Data Architect è la persona che gestisce i dati, specialmente quando si ha a che fare con numeri diversi di una varietà di fonti di dati. Si dovrebbe avere una conoscenza approfondita di come funziona un database, di come i dati si collegano ai problemi aziendali e di come le modifiche disturberanno l'uso dei dati dell'organizzazione e quindi l'architetto di dati manipolerà / trasformerà l'architettura dei dati in base a loro.
La responsabilità principale di Data Architect sta lavorando al data warehousing, allo sviluppo dell'architettura dei dati o all'hub / magazzino dei dati aziendali.
Considerando che un ingegnere dei dati aiuta con l'installazione di soluzioni di data warehouse, modellazione dei dati, sviluppo e test dell'architettura di database.

9. Descrivere un momento in cui è stato trovato un nuovo caso d'uso per il database esistente che ha avuto un impatto positivo sull'azienda?

Risposta:
Mentre nell'era dei Big Data con SQL mancheranno le seguenti funzionalità:
un. Gli RDBMS sono DB orientati allo schema, quindi è meglio per i dati strutturati e non per i dati semistrutturati o non strutturati.
b. Non è in grado di elaborare dati imprevedibili e non strutturati.
c. Non è scalabile orizzontalmente, ovvero l'esecuzione parallela e la memorizzazione non sono possibili in SQL.
d. Soffre di problemi di prestazioni quando aumenta un numero di utenti.
e. Viene utilizzato principalmente per l'elaborazione transazionale online.

Per ovviare a questi inconvenienti, possiamo usare NoSQL DB, ovvero non solo SQL.
Quindi, nel progetto, si possono usare diversi tipi di DB NoSQL come Cassandra, Mongo DB, Graph DB, HBase ecc.

10. Hai esperienza di lavoro in un ambiente di cloud computing? Quali vantaggi vedi lavorare in uno?

Risposta:
Si può dire di sì Cloud Computing Environment è pronto a spostare l'ambiente per la produzione, lo sviluppo e i test senza pensare di integrare insieme molte istanze / Linux / window server. Esistono vari servizi di cloud computing in un mercato come AWS (Amazon Web Services), Azure (Microsoft), GCP (Google Cloud Platform). Il servizio di cloud computing fornisce le seguenti funzionalità come la flessibilità, ad esempio l'ambiente si espanderà secondo i requisiti, Ripristino di emergenza prendendo backup e istantanee, Lavora da qualsiasi luogo con VPN, Ambiente sicuro e rispettoso dell'ambiente, come funziona su hardware di base, ovvero computer di uso generale che sono a basso costo.

Conclusione

Nel blog sopra, abbiamo tenuto le domande di intervista più frequenti sull'ingegnere dei dati e su come si può rispondere fornendo punti funzionalità.

Articolo raccomandato:

Questa è stata una guida completa alle domande e alle risposte dell'intervista dell'ingegnere dei dati, in modo che il candidato possa reprimere facilmente queste domande sull'intervista dell'ingegnere dei dati. questo articolo è composto da tutte le migliori domande e risposte sulle interviste all'ingegnere di dati. Puoi anche consultare i seguenti articoli per saperne di più -

  1. Più importanti Azure Paas vs Iaas
  2. Domande sui colloqui sui Big Data
  3. 5 domande di intervista più importanti su Elasticsearch
  4. PIG intervista domande e risposte
  5. Le 5 domande di intervista più importanti per la scienza dei dati