Introduzione alle alternative alveare

Prima di discutere le alternative di HIVE. Capiamo prima cosa cos'è un alveare? Quindi, HIVE è fondamentalmente uno strumento di data warehousing sviluppato su HDFS (Hadoop Distributed File System). Viene utilizzato per fornire un'interfaccia di query simile a SQL per eseguire query sui dati memorizzati in vari file integrati con Hadoop. Converte le query come SQL in lavori Map Reduce che aiutano nella facile esecuzione di grandi volumi di dati.

Caratteristiche

Di seguito sono riportate alcune delle funzionalità di Hive:

  • Come SQL ha un suo linguaggio dichiarativo chiamato HiveQL.
  • Ha una struttura di tabella simile alle tabelle nel database relazionale e fornisce anche supporto ETL (estratto / supporto / carico).
  • Una caratteristica interessante è che consente la conversione del formato dall'interno dell'HIVE.

Limitazione delle alternative all'alveare

Conosciamo alcune limitazioni di Hive:

  • Non è progettato per OLTP (elaborazione delle transazioni online) ma supporta OLAP (elaborazione analitica online).
  • Una limitazione importante è che non supporta gli aggiornamenti e le eliminazioni.
  • Anche in Hive le subquery non sono supportate.

5 Importanti alternative all'alveare

Di seguito discuteremo cinque importanti alternative di HIVE presenti sul mercato:

1. Apache Impala

È un motore di query SQL di elaborazione parallela open source per i dati archiviati in un cluster di computer che esegue Apache Hadoop. È stato annunciato nell'ottobre 2012. Di seguito sono riportate le caratteristiche salienti di Apache Impala in alternativa a HIVE.

  • Impala è una buona scelta per le persone che eseguono query SQL su Hadoop e Apache HBase senza trasformare i dati in quanto non è necessario per trasformarli o spostarli, a differenza di HIVE.
  • Un'altra differenza tra questi due è la generazione di espressioni di query. Impala li genera in fase di esecuzione usando llvm mentre HIVE li genera in fase di compilazione.
  • Le query Hive hanno un problema di avvio a freddo che non è il caso delle query Impala poiché nei processi daemon Impala vengono avviati all'avvio stesso sempre sempre pronti a elaborare una query a causa della quale evita il problema dell'avvio a freddo.
  • Impala riconosce i formati di file Hadoop, la sicurezza di Hadoop, il driver ODBC.
  • Il principale USP dell'impala è la forza bruta dell'elaborazione parallela. Quindi, Impala è un'alternativa migliore se si sta avviando un nuovo progetto.

2. Presto DB

Presto è un'altra alternativa a HIVE sviluppata da Facebook. Il suo USP è che può anche interrogare dati da più fonti all'interno di una singola query. Di seguito sono riportate le caratteristiche salienti di PrestoDB in alternativa a HIVE.

  • Presto è un motore di query SQL distribuito in memoria che è anche molto veloce in quanto il motore di query di Presto è veloce e adatto all'analisi interattiva.
  • L'USP per Presto rispetto ad altri è il suo modello plug and play con diverse fonti di dati. Grazie a questo modello plug-and-play, unire query a diverse origini dati è molto semplice con presto.
  • In Presto le tabelle di join di piccole dimensioni sono state rese più veloci. Presto eccelle con la maggior parte degli altri motori di query distribuiti.
  • Presto non è appropriato per join di fatti di grandi dimensioni poiché non sfrutta il disco e non utilizza la memoria per l'elaborazione.
  • Un altro punto importante per presto è la sua allocazione delle risorse. Ha un'allocazione delle risorse basata sulla coda prioritaria.
  • Un compromesso per una buona prestazione in Presto è che il supporto UDF non è disponibile in breve tempo a causa del quale si deve scrivere la propria funzione che aumenta il sovraccarico in quanto deve essere costruito esclusivamente per presto e ostacola l'interoperabilità.

3. Spark SQL

È un modulo per l'elaborazione dei dati strutturati e anche open-source. Può anche fungere da motore di query SQL distribuito e anche una parte unica di questo è l'astrazione di programmazione nota come frame di dati. È stato rilasciato per la prima volta nel 2014, sviluppato da Apache Software Foundation. Di seguito sono riportate alcune delle caratteristiche salienti di Spark SQL in alternativa a HIVE.

  • La cosa buona di Spark SQL è che può essere implementato in linguaggio Java, Scala, Python e R mentre HIVE può essere implementato in linguaggio Java.
  • Esiste una somiglianza completa nel modello di database primario tra HIVE e Spark, poiché per entrambi il modello di database primario è DBMS relazionale.
  • È anche simile a HIVE poiché entrambi supportano l'archivio valori-chiave come modello di database aggiuntivo.
  • Ha tipi di dati predefiniti come float e date.
  • Supporta SQL in quanto possiede istruzioni DML e DDL.
  • A differenza di HIVE che supporta JDBC, ODBC e parsimonia, Spark SQL supporta solo JDBC e ODBC.
  • Spark SQL utilizza spark core per archiviare i dati in nodi diversi.
  • Un'altra importante differenza tra spark e HIVE è rappresentata dai metodi di replica: esiste un fattore di replica selettiva in HIVE per l'archiviazione di dati ridondanti su più nodi ma in Spark SQL non è disponibile alcun fattore di replica.
  • In Spark SQL non esistono diritti di accesso per gli utenti, mentre in Apache Hive abbiamo diritti di accesso per utenti e gruppi.
  • Non supporta una tabella transazionale e nessun supporto per il tipo di carattere.

4. Squalo

È un motore di query SQL open source che è scritto in Scala. Il fatto interessante di Shark è invece di usare Map-Reduce per eseguire le sue query che utilizza i propri set di nodi di lavoro. Di seguito sono riportate alcune delle funzionalità di Shark:

  • Utilizza un client della riga di comando.
  • Offre interoperabilità con Hive per la condivisione dello schema.
  • Fornisce supporto per le estensioni hive esistenti come UDF.

Non è ancora molto famoso ma offre un'alternativa a HIVE.

5. BigSQL di IBM

È fornito da Big Blue (IBM). IBM ha la sua distribuzione Hadoop chiamata Big Insights. Quindi, Big SQL viene offerto come parte di esso. Non è open source in quanto fornito da IBM. Alcune delle cose che forniscono sono le seguenti:

  • Supportano entrambi i driver JDBC e OJDBC.
  • Forniscono supporto SQL
  • Possono essere utilizzati per eseguire query sui dati da HDFS.

Articoli consigliati

Questa è una guida alle alternative alveare. Qui discutiamo caratteristiche, limitazioni e 5 importanti alternative Hive. Puoi anche consultare i nostri altri articoli correlati per saperne di più-

  1. Alternative Hadoop
  2. Alternative del tableau
  3. Alternative di Google Analytics
  4. Streaming di Hadoop
  5. Hive Order di
  6. Installazione alveare
  7. Cornici dati in R

Categoria: