Introduzione agli strumenti di Hadoop

Gli strumenti Hadoop sono il framework utilizzato per elaborare una grande quantità di dati. Questi dati vengono distribuiti su un cluster e il calcolo distribuito viene eseguito. I dati vengono archiviati in blocchi di dimensioni 128 Mb e per elaborare e ottenere un risultato viene utilizzata la potenza di Map Reduce. Tradizionalmente Map e Reduce sono stati scritti in Java, ma era difficile incrociare le risorse che lavorano nel Data warehouse in quanto non avevano esperienza in esso. SQL è ben noto ed è facile da usare, quindi trovando un modo per scrivere un SQL come una query che viene convertita in Mappa e riduzione, questo è stato fondato da Facebook e successivamente donato ad Apache, questo strumento è noto come Hive. Yahoo ha anche creato uno strumento chiamato Pig che viene convertito in Map Reduce durante l'esecuzione, allo stesso modo, abbiamo Sqoop e il canale per gli strumenti di spostamento e iniezione dei dati. HBase è uno strumento di sistema di gestione di database.

Funzionalità di Hadoop Tools

  1. Alveare
  2. Maiale
  3. Sqoop
  4. HBase
  5. Zookeeper
  6. canale artificiale

Ora vedremo le funzionalità con una breve spiegazione.

1. Alveare

Apache Hive è stato fondato da Facebook e successivamente donato alla fondazione Apache, che è un'infrastruttura di data warehouse, che facilita la scrittura di SQL come Query chiamata HQL o HiveQL. Queste query vengono convertite internamente in lavori Map Reduce e l'elaborazione viene eseguita utilizzando il calcolo distribuito di Hadoop. Può elaborare i dati che risiedono in HDFS, S3 e tutti gli archivi compatibili con Hadoop. Possiamo sfruttare le strutture fornite da Map Reduce ogni volta che troviamo qualcosa di difficile da implementare in Hive implementando in Funzioni definite dall'utente. Consente all'utente di registrare UDF e utilizzarlo nei lavori.

Caratteristiche di Hive

  • Hive può elaborare molti tipi di formati di file come file di sequenza, file ORC, file di testo, ecc.
  • Il partizionamento, il bucket e l'indicizzazione sono disponibili per un'esecuzione più rapida.
  • I dati compressi possono anche essere caricati in una tabella hive.
  • Le tabelle gestite o interne e le tabelle esterne sono le caratteristiche principali di Hive.

2. Maiale

Yahoo ha sviluppato Apache Pig per avere uno strumento aggiuntivo per rafforzare Hadoop disponendo di un modo ad hoc per implementare Map Reduce. Pig ha un motore chiamato Pig Engine che converte gli script in Map Reduce. Pig è un linguaggio di scripting, gli script scritti per Pig sono in PigLatin, proprio come Hive qui anche noi possiamo avere UDF per migliorare la funzionalità. Le attività in Pig sono ottimizzate automaticamente, quindi i programmatori non devono preoccuparsene. Pig gestisce sia i dati strutturati che quelli non strutturati.

Caratteristiche del maiale

  • Gli utenti possono avere le proprie funzioni per eseguire un tipo speciale di elaborazione dei dati.
  • È facile scrivere codici in Pig in modo comparativo anche la lunghezza del codice è inferiore.
  • Il sistema può ottimizzare automaticamente l'esecuzione.

3. Sqoop

Sqoop viene utilizzato per trasferire dati da HDFS a RDBMS e viceversa. Siamo in grado di estrarre i dati in HDFS da RDBMS, Hive, ecc. E possiamo elaborarli ed esportarli nuovamente in RDBMS. Possiamo aggiungere i dati molte volte in una tabella e possiamo anche creare un lavoro Sqoop ed eseguirlo 'n' numero di volte.

Caratteristiche di Sqoop

  • Sqoop può importare tutte le tabelle contemporaneamente in HDFS.
  • Siamo in grado di incorporare query SQL e condizioni sull'importazione di dati.
  • Possiamo importare i dati in hive se è presente una tabella da HDFS.
  • Il numero di mapper può essere controllato, ovvero l'esecuzione parallela può essere controllata specificando il numero di mappatori.

4. HBase

Il sistema di gestione del database su HDFS è chiamato HBase. HBase è un database NoSQL, sviluppato su HDFS. HBase non è un database relazionale, non supporta linguaggi di query strutturati. HBase utilizza l'elaborazione distribuita di HDFS. Può avere tabelle di grandi dimensioni con milioni e milioni di record.

Caratteristiche di HBase

  • HBase offre scalabilità sia lineare che modulare.
  • Le API in JAVA possono essere utilizzate per l'accesso client.
  • HBase fornisce una shell per l'esecuzione di query.

5. Zookeeper

Apache Zookeeper è un servizio centralizzato di manutenzione della configurazione, tiene traccia delle informazioni, dei nomi, offre anche servizi di sincronizzazione distribuiti e di gruppo. Zookeeper è un repository centralizzato che viene utilizzato da applicazioni distribuite per inserire e ottenere dati su di esso. Aiuta anche a gestire i nodi, ad esempio per unire o lasciare un nodo nel cluster. Fornisce un registro di dati altamente affidabile quando alcuni dei nodi sono inattivi.

Caratteristiche di Zookeeper

  • Le prestazioni possono essere aumentate distribuendo le attività ottenute aggiungendo più macchine.
  • Nasconde la complessità della distribuzione e si ritrae come una singola macchina.
  • Il fallimento di alcuni sistemi non influisce sull'intero sistema, ma lo svantaggio è che può portare alla perdita parziale dei dati.
  • Fornisce Atomicity, ovvero la transazione ha esito positivo o negativo ma non si trova in uno stato imperfetto.

6. Flume

Apache Flume è uno strumento che fornisce l'ingestione di dati, che può raccogliere, aggregare e trasportare una grande quantità di dati da diverse fonti su un HDFS, HBase, ecc. Flume è molto affidabile e può essere configurato. È stato progettato per importare i dati di streaming dal server Web o i dati degli eventi in HDFS, ad esempio può ingerire i dati di Twitter in HDFS. Flume può archiviare dati in qualsiasi archivio dati centralizzato come HBase / HDFS. Se c'è una situazione in cui i dati prodotti sono più alti rispetto a quelli della velocità dei dati che possono essere scritti, allora il canale funge da mediatore e garantisce un flusso costante di dati.

Caratteristiche di Flume

  • Può ingerire i dati dei server Web insieme ai dati degli eventi come i dati dai social media.
  • Le transazioni del canale sono basate sul canale, ovvero due messaggi vengono mantenuti uno per l'invio e uno per la ricezione.
  • Il ridimensionamento orizzontale è possibile in un canale.
  • È altamente tollerante ai guasti poiché il routing contestuale è presente in un canale.

Conclusione - Strumenti di Hadoop

Qui in questo articolo, abbiamo imparato alcuni degli strumenti di Hadoop e come sono utili nel mondo dei dati. Abbiamo visto Hive and Pig che viene utilizzato per interrogare e analizzare i dati, sqoop per spostare i dati e eseguire il flusso per ingerire i dati di streaming su HDFS.

Articoli consigliati

Questa è stata una guida a Hadoop Tools. Qui discutiamo diversi strumenti di Hadoop con le loro caratteristiche. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -

  1. Alternative Hadoop
  2. Database Hadoop
  3. Funzioni stringa SQL
  4. Cosa sono i Big Data

Categoria: