10 domande di intervista per l'analisi dei dati essenziali (Aggiornato per il 2019)

Sommario:

Anonim

Introduzione a Data Analytics Intervista Domande e risposte

Quindi hai finalmente trovato il lavoro dei tuoi sogni in Data Analytics ma ti stai chiedendo come rompere l'intervista di Data Analytics del 2019 e quali potrebbero essere le probabili domande di intervista di Data Analytics. Ogni colloquio di Data Analytics è diverso e anche l'ambito di un lavoro è diverso. Tenendo presente questo, abbiamo progettato le domande e le risposte più comuni relative al colloquio di Data Analytics per aiutarti a ottenere il successo nel tuo colloquio di Data Analytics.

Di seguito sono riportate le principali domande di intervista di Data Analytics 2019 che vengono poste principalmente in un'intervista

1. Qual è la differenza tra Data Mining e Data Analysis?

Risposta:

Estrazione dei datiAnalisi dei dati
Non è necessaria un'ipotesi per il data miningL'analisi dei dati inizia con un'ipotesi.
Il data mining richiede dati puliti e ben documentati.L'analisi dei dati comporta la pulizia dei dati.
I risultati del data mining non sono sempre facili da interpretare.Gli analisti di dati interpretano i risultati e li presentano agli stakeholder.
Gli algoritmi di data mining sviluppano automaticamente equazioni.Gli analisti di dati devono sviluppare le proprie equazioni.

2. Indica quali sono le varie fasi di un progetto di analisi?

Risposta:
L'analisi dei dati si occupa di raccogliere, pulire, trasformare e modellare i dati per ottenere informazioni preziose e supportare un migliore processo decisionale in un'organizzazione. I passaggi coinvolti nel processo di analisi dei dati sono i seguenti:

Esplorazione dei dati: dopo aver esplorato il problema aziendale, un analista di dati deve analizzare la causa principale del problema.
Preparazione dei dati - In questa fase del processo di analisi dei dati troviamo anomalie dei dati come valori mancanti all'interno dei dati.
Modellazione dei dati: la fase di modellazione inizia dopo che i dati sono stati preparati. La modellazione è un processo iterativo in cui il modello viene eseguito ripetutamente per miglioramenti. La modellazione dei dati garantisce il miglior risultato possibile per un problema aziendale.
Convalida: in questo passaggio, il modello fornito dal client e il modello sviluppato dall'analista di dati vengono convalidati l'uno contro l'altro per scoprire se il modello sviluppato soddisferà i requisiti aziendali.
Implementazione del modello e tracciamento - In questa fase finale dell'implementazione del modello di analisi dei dati è in corso e dopo tale tracciamento viene effettuato per garantire che il modello sia implementato correttamente o no?

3.Qual è la responsabilità di un analista di dati?

Risposta:
• Risolvere i problemi associati al business per i clienti ed eseguire operazioni di controllo dei dati.
• Interpretare i dati usando tecniche statistiche.
• Identificare le aree per opportunità di miglioramento.
• Analizzare, identificare e interpretare tendenze o modelli in set di dati complessi.
• Acquisire dati da fonti di dati primarie o secondarie.
• Mantenere database / sistemi di dati.
• Individuare e correggere i problemi di codice utilizzando gli indicatori di prestazione.
• Protezione del database mediante lo sviluppo del sistema di accesso.

4.Che cosa sono le collisioni della tabella hash? Come viene evitato?

Risposta:
Una collisione della tabella hash si verifica quando due chiavi diverse hanno lo stesso valore. Esistono molte tecniche per evitare la collisione della tabella hash, qui ne elenchiamo due:
Concatenamento separato: utilizza la struttura dei dati che esegue l'hashing nello stesso slot per archiviare più elementi.
Indirizzamento aperto: cerca altri slot utilizzando una seconda funzione e memorizza gli elementi nel primo slot vuoto.

5. Elenco di alcuni dei migliori strumenti che possono essere utili per l'analisi dei dati?

Risposta:
• Tableau
• RapidMiner
• OpenRefine
• KNIME
• Operatori di ricerca di Google
• Solver
• NodeXL
• io
• Wolfram Alpha's
• Google Fusion Tables

6. Qual è la differenza tra data mining e profiling dei dati?

Risposta:
La differenza tra data mining e profiling dei dati è la seguente:
• Profilazione dei dati: mira all'analisi istantanea di singoli attributi come variazione del prezzo, prezzo distinto e loro frequenza, incidenza di valori nulli, tipo di dati, lunghezza, ecc.
• Data mining: si concentra su dipendenze, individuazione di sequenze, tenuta di relazioni tra diversi attributi, analisi di cluster, rilevamento di record insoliti ecc.

7. Spiega l'algoritmo K-mean e l'algoritmo di cluster gerarchico?

Risposta:
K-Mean Algorithm - K mean è un famoso metodo di partizionamento. Nell'algoritmo K-mean, i cluster sono sferici, ovvero i punti dati in un cluster sono centrati su quel cluster. Inoltre, la varianza dei cluster è simile, ovvero ogni punto dati appartiene al cluster più vicino
Algoritmo di clustering gerarchico: l'algoritmo di clustering gerarchico combina e divide i gruppi esistenti e crea una struttura gerarchica per mostrare l'ordine in cui i gruppi sono divisi.

8. Che cos'è la pulizia dei dati? Menzionate alcune best practice che dovete seguire durante la pulizia dei dati?

Risposta:
Da un determinato set di dati, è estremamente importante ordinare le informazioni richieste per l'analisi dei dati. La pulizia dei dati è un passaggio cruciale in cui i dati vengono ispezionati per trovare eventuali anomalie, rimuovere informazioni ripetitive e errate, ecc. La pulizia dei dati non comporta la rimozione di alcuna informazione esistente dal database, migliora solo la qualità dei dati in modo che possano essere utilizzati per l'analisi .
Alcune delle migliori pratiche per la pulizia dei dati includono -
• Sviluppare un piano di qualità dei dati per identificare dove si verificano gli errori di massima qualità dei dati in modo da poter valutare la causa principale e pianificare in base a ciò.
• Seguire un metodo consueto per convalidare le informazioni necessarie prima che vengano inserite nelle informazioni.
• Identificare eventuali dati duplicati e convalidare l'accuratezza dei dati poiché ciò farà risparmiare molto tempo durante l'analisi.
• Il monitoraggio di tutte le operazioni di miglioramento eseguite sulle informazioni è incredibilmente necessario per ripetere o rimuovere tutte le operazioni necessarie.

9.Quali sono alcuni dei metodi statistici utili per l'analista di dati?

Risposta:
Sono metodi statistici utili per lo scienziato dei dati
• Metodo bayesiano
• Processo di Markov
• Processi spaziali e di cluster
• Rango statistiche, percentile, rilevazione dei valori anomali
• Tecniche di imputazione, ecc.
• Algoritmo simplex
• Ottimizzazione matematica

10. Spiegare cos'è l'imputazione? Elencare diversi tipi di tecniche di imputazione? Quale metodo di imputazione è più favorevole?

Risposta:
Durante l'imputazione, abbiamo la tendenza a sostituire le informazioni mancanti con valori sostituiti. I tipi di tecniche di imputazione coinvolte sono:
• Singola imputazione: la singola imputazione indica che il valore mancante è sostituito da un valore. In questo metodo, viene recuperata la dimensione del campione.
• Imputazione a caldo: un valore mancante viene imputato da un record simile selezionato casualmente utilizzando la scheda perforata
• Imputazione del mazzo freddo: funziona come l'imputazione del mazzo caldo, ma un po 'più avanzata e sceglie i donatori da altri set di dati
• Imputazione media: comporta la sostituzione del valore mancante con i valori previsti di altre variabili.
• Imputazione della regressione: comporta la sostituzione del valore mancante con i valori previsti di un determinato valore in base ad altre variabili.
• regressione stocastica: è uguale all'imputazione di regressione, tuttavia aggiunge la varianza di regressione comune all'imputazione di regressione
• Imputazione multipla: diversamente dall'imputazione singola, le imputazioni multiple stimano i valori più volte

Sebbene la singola imputazione sia ampiamente utilizzata, non riflette l'incertezza creata dai dati mancanti a caso. Pertanto, le imputazioni multiple sono più favorevoli della singola imputazione in caso di dati mancanti a caso.

Articoli consigliati

Questa è stata una guida completa alle Domande e risposte sulle interviste di Data Analytics in modo che il candidato possa reprimere facilmente queste Domande sulle interviste di Data Analytics. Puoi anche consultare i seguenti articoli per saperne di più -

  1. 10 domande e risposte utili per l'intervista
  2. 8 fantastiche domande per l'intervista con l'algoritmo
  3. 25 domande di intervista di informatica più importanti
  4. 10 Incredibile Data Engineer Intervista Domande e risposte