Introduzione a Spark Intervista Domande e risposte

Apache Spark è un framework open source. Spark, poiché è una piattaforma open source, possiamo usare più linguaggi di programmazione come java, python, Scala, R. Rispetto alle prestazioni del processo Map-Reduce, spark aiuta a migliorare le prestazioni di esecuzione. Fornisce inoltre un'esecuzione in memoria 100 volte più veloce di Map-Reduce. A causa della potenza di elaborazione della scintilla oggigiorno le industrie preferiscono la scintilla.

Quindi hai finalmente trovato il lavoro dei tuoi sogni in Spark ma ti stai chiedendo come rompere la Spark Interview e quali potrebbero essere le probabili Spark Interview Questions per il 2018. Ogni intervista è diversa e anche la portata di un lavoro è diversa. Tenendo presente questo, abbiamo progettato le domande e le risposte dell'intervista Spark più comuni per il 2018 per aiutarti a ottenere il successo nell'intervista.

Queste domande sono divise in due parti

Parte 1 - Spark Interview Questions (Basic)

Questa prima parte copre le domande e le risposte di base dell'intervista a Spark

1. Che cos'è Spark?

Risposta:
Apache Spark è un framework open source. Migliora le prestazioni di esecuzione rispetto al processo Map-Reduce. È una piattaforma aperta in cui possiamo usare più linguaggi di programmazione come Java, Python, Scala, R. Spark fornisce l'esecuzione in memoria 100 volte più veloce di Map-Reduce. Usa il concetto di RDD. RDD è un set di dati distribuito resiliente che consente di archiviare in modo trasparente i dati in memoria e di persistere su disco solo se necessario. Questo è dove ridurrà il tempo per accedere ai dati dalla memoria anziché dal disco. Oggi l'industria preferisce Spark per la sua potenza di elaborazione.

2.Differenza tra Hadoop e Spark?

Risposta:

Criteri di funzionalitàApache SparkHadoop
Velocità10 a 100 volte più veloce di HadoopVelocità normale
in lavorazioneElaborazione batch e in tempo reale, in memoria, memorizzazione nella cacheSolo elaborazione batch, dipendente dal disco
DifficoltàFacile grazie ai moduli di alto livelloDifficile da imparare
RecuperoConsente il ripristino di partizioni utilizzando RDDTollerante agli errori
interattivitàDispone di modalità interattive e interattiveNessuna modalità interattiva tranne Pig & Hive, nessuna modalità iterativa

La normale architettura di Hadoop segue Map-Reduce di base, per lo stesso processo spark fornisce l'esecuzione in memoria. Invece di leggere e scrivere dal disco rigido per Map-Reduce, spark fornisce lettura e scrittura dalla memoria virtuale.

Passiamo alle prossime domande dell'intervista di Spark

3. Quali sono le caratteristiche di Spark?

Risposta:

  1. Fornire funzionalità di integrazione con Hadoop e file su HDFS. Spark può essere eseguito su Hadoop usando il clustering di risorse YARN. Spark ha la capacità di sostituire il motore Map-Reduce di Hadoop.
  2. Polyglot: Spark Fornire API di alto livello per Java, Python, Scala e R. Spark Code può essere scritto in una di queste quattro lingue. L'IT fornisce una shell indipendente per scalabilità (la lingua in cui è scritto Spark) e un interprete Python. Quale aiuterà a interagire con il motore spark? È possibile accedere alla shell Scala tramite ./bin/spark-shell e shell Python tramite ./bin/pyspark dalla directory installata.
  3. Velocità: il motore Spark è 100 volte più veloce di Hadoop Map-Reduce per l'elaborazione dei dati su larga scala. La velocità sarà raggiunta attraverso il partizionamento per parallelizzare l'elaborazione dei dati distribuiti con un traffico di rete minimo. Spark Fornisce RDD (Resilient Distributed Dataset), che possono essere memorizzati nella cache su nodi di calcolo in un cluster
  4. Formati multipli: Spark ha un'API di origine dati. Fornirà un meccanismo per accedere ai dati strutturati tramite spark SQL. Le origini dati possono essere qualsiasi cosa, Spark creerà semplicemente un meccanismo per convertire i dati e trascinarli nella scintilla. Spark supporta più origini dati come Hive, HBase, Cassandra, JSON, Parquet, ORC.
  5. Spark fornisce alcune librerie integrate per eseguire più attività dallo stesso core come l'elaborazione batch, Steaming, Machine learning, query SQL interattive. Tuttavia, Hadoop supporta solo l'elaborazione batch. Spark Fornire MLIb (librerie di machine learning) che saranno utili allo sviluppatore di Big Data per elaborare i dati. Questo aiuta a rimuovere le dipendenze da più strumenti per scopi diversi. Spark fornisce una potente piattaforma comune per ingegneri e data scientist con prestazioni sia veloci che facili da usare.
  6. Apache Spark ritarda l'esecuzione del processo finché l'azione non è necessaria. Questa è una delle caratteristiche principali di Spark. Spark aggiungerà ogni trasformazione a DAG (Direct Acyclic Graph) per l'esecuzione e quando l'azione vuole essere eseguita, il DAG attiverà effettivamente l'elaborazione.
  7. Streaming in tempo reale: Apache Spark Fornisce calcoli in tempo reale e bassa latenza, a causa dell'esecuzione in memoria. Spark è progettato per grandi scalabilità come un migliaio di nodi del cluster e diversi modelli per i calcoli.

4. Che cos'è FILATO?

Risposta:
Queste sono le domande di base dell'intervista di Spark poste in un'intervista. YARN (Yet Another Resource Negotiator) è il gestore delle risorse. Spark è una piattaforma che offre un'esecuzione rapida. Spark utilizzerà YARN per l'esecuzione del lavoro nel cluster, piuttosto che il suo gestore integrato. Esistono alcune configurazioni per eseguire Yarn. Includono master, modalità di distribuzione, memoria del driver, memoria dell'esecutore, core dell'esecutore e coda. Questa è la comune Spark Interview Domande che vengono poste in un'intervista di seguito è i vantaggi di Spark:

Vantaggi di Spark su Map-Reduce

Spark presenta vantaggi rispetto a Map-Reduce come segue: -
Grazie alla capacità del processo in memoria, Spark è in grado di eseguire da 10 a 100 volte più velocemente di Map-Reduce. Dove Map-Reduce può essere utilizzato per la persistenza dei dati nella fase Map and Reduce.

Apache Spark offre un elevato livello di librerie integrate per elaborare più attività contemporaneamente all'elaborazione batch, streaming in tempo reale, Spark-SQL, Streaming strutturato, MLib, ecc. Allo stesso tempo Hadoop fornisce solo l'elaborazione batch.
Il processo Hadoop Map-Reduce dipenderà dal disco, dove Spark fornisce cache e in memoria.

Spark ha sia iterativo, esegue il calcolo multiplo sullo stesso set di dati e interattivo, esegue il calcolo tra set di dati diversi in cui Hadoop non supporta il calcolo iterativo.

5. Qual è la lingua supportata da Spark?

Risposta:
Spark supporta scala, Python, R e Java. Nel mercato, lo sviluppatore di big data preferisce principalmente scala e python. Perché una bilancia compili il codice, abbiamo bisogno di impostare il percorso della directory scale / bin o di creare un file jar.

6. Che cos'è RDD?

Risposta:
RDD è un'astrazione del set di dati distribuito resiliente, che fornisce una raccolta di elementi partizionati su tutti i nodi del cluster che aiuteranno a eseguire più processi in parallelo. Utilizzando lo sviluppatore RDD è possibile archiviare i dati nella memoria o nella memorizzazione nella cache, per riutilizzarli in modo efficiente per l'esecuzione parallela delle operazioni. RDD può essere recuperato facilmente dall'errore del nodo.

Parte 2 - Spark Interview Questions (Advanced)

Diamo ora un'occhiata alle domande avanzate dell'intervista di Spark.

7. Quali sono i fattori responsabili dell'esecuzione di Spark?

Risposta:
1. Spark fornisce un'esecuzione in memoria anziché dipendente dal disco come Hadoop Map-Reduce.
2.RDD Resilient Distributed Dataset, che è un'esecuzione parallela responsabile di più operazioni su tutti i nodi di un cluster.
3. Spark fornisce una funzione variabile condivisa per l'esecuzione parallela. Queste variabili aiutano a ridurre il trasferimento di dati tra nodi e a condividere una copia di tutti i nodi. Vi sono due variabili.
4. Variabile di Broadcast: questa variabile può essere utilizzata per memorizzare nella cache un valore in memoria su tutti i nodi
5. Variabile accumulatori: questa variabile viene solo “aggiunta” a, come contatori e somme.

8. Che cos'è la memoria dell'esecutore?

Risposta:
Queste sono le Domande frequenti sull'intervista di Spark in un'intervista. È la dimensione dell'heap allocata per l'esecutore spark. Questa proprietà può essere controllata dalla proprietà spark.executor.memory del flag –executor-memory. Ogni applicazione Spark ha un solo esecutore per ciascun nodo di lavoro. Questa proprietà si riferisce alla quantità di memoria dei nodi di lavoro che verrà allocata per un'applicazione.

9. Come si utilizza Spark Stream? Spiegare un caso d'uso?

Risposta:
Spark Stream è una delle funzioni utili per un caso d'uso in tempo reale. A questo scopo possiamo usare il fumo, Kafka con una scintilla. Flume attiverà i dati da una fonte. Kafka persisterà i dati in Argomento. Da Kafka Spark estrarrà i dati usando il flusso e D-stream i dati ed eseguirà la trasformazione.

Possiamo utilizzare questo processo per una transazione sospetta in tempo reale, offerte in tempo reale, ecc.

Passiamo alle prossime domande dell'intervista di Spark

10. Possiamo usare Spark per il processo ETL?

Risposta:
Sì, possiamo usare la piattaforma spark per il processo ETL.

11. Che cos'è Spark SQL?

Risposta:
È un componente speciale di spark che supporterà le query SQL.

12. Quale valutazione pigra?

Risposta:
Quando stiamo lavorando con una scintilla, le trasformazioni non vengono valutate fino a quando non si esegue un'azione. Ciò consente di ottimizzare il flusso di lavoro complessivo di elaborazione dei dati. Quando si definisce la trasformazione, verrà aggiunta al DAG (grafico aciclico diretto). E al momento dell'azione inizierà a eseguire trasformazioni graduali. Questa è l'utile Spark Interview Question posta in un'intervista.

Articolo raccomandato

Questa è stata una guida all'elenco delle domande e risposte sull'intervista di Spark in modo che il candidato possa reprimere facilmente queste domande sull'intervista di Spark. Puoi anche consultare i seguenti articoli per saperne di più-

  1. Java vs Node JS che semplifica le differenze
  2. Domande di intervista al database Mongo | Utile e più richiesto
  3. 15 domande e risposte dell'intervista R di maggior successo
  4. Intervista Perl Domande e risposte
  5. Domande sul colloquio di sistema SAS - Le 10 domande più utili