Data Warehouse vs Hadoop - 6 differenze importanti da sapere

Sommario:

Anonim

Differenze tra Data Warehouse e Hadoop

In ogni decennio, il settore IT sperimenta un'importante innovazione che scuote l'intero settore IT. Negli ultimi anni, Apache Hadoop ha fatto la stessa cosa infondendo ai data center una nuova infrastruttura

Dando la potenza dell'elaborazione parallela al programmatore Hadoop è in un tale aumento esponenziale in adozione e il suo ecosistema si sta espandendo sia in profondità che in ampiezza, è naturale chiedersi se Hadoop sostituirà il tradizionale Data Warehouse.

Vediamo cosa ha detto Alasdair Anderson (Vicepresidente esecutivo della Nordea) in un vertice di Hadoop su questo tema caldo della città.

“Al momento non esiste alcuna relazione tra EDW e Hadoop: saranno complementari. Non si tratta di rip e sostituisce: non ci libereremo di RDBMS o MPP, ma utilizzeremo invece lo strumento giusto per il lavoro giusto - e questo sarà molto guidato dal prezzo.

Ogni volta che questa interessante discussione inizia molte domande ci vengono in mente come:

1) Se disponi di big data, hai bisogno di un data warehouse?

2) Hadoop sostituirà il data warehouse?

3) È questa la morte dell'era tradizionale del Data Warehouse?

Per conoscere le risposte a tutte queste domande, dobbiamo esaminare il contesto più ampio di questa immagine.

1. Che cos'è Hadoop?

Chi non ha sentito parlare di Big Data ultimamente? Con centinaia di terabyte di dati generati ogni giorno da fonti diverse, è chiaro che il mondo moderno di oggi è un mondo di Big Data

Quando inizi a parlare di Big Data, prima o poi inizierai a discutere l'argomento più importante del mondo dei Big Data: Hadoop - ma che cos'è esattamente?

Hadoop è un open-source, un framework di programmazione basato su Java che supporta l'elaborazione e l'archiviazione di set di dati estremamente grandi in un ambiente di elaborazione distribuito.

I 4 moduli di Hadoop -

Hadoop è composto da 4 moduli -

  1. File system distribuito

Il file system distribuito consente di archiviare i dati in un formato facilmente accessibile, attraverso un gran numero di dispositivi di archiviazione collegati.

  1. Riduci mappa

Map Reduce è la combinazione di due operazioni: leggere i dati dal database e metterli in un formato adatto per l'analisi (mappa) ed eseguire operazioni matematiche (ridurre).

  1. Hadoop Common

Hadoop Common fornisce gli strumenti necessari per i dati archiviati in HDFS (Hadoop Distributed File System)

  1. FILATO

YARN gestisce le risorse dei sistemi archiviando i dati ed eseguendo l'analisi.

2. Che cos'è un data warehouse?

Un data warehouse è un database relazionale progettato per i dati di query e analisi. Di solito contiene dati storici derivati ​​da diverse fonti.

L'ambiente di data warehouse include soluzioni ETL, un motore di elaborazione analitica online (OLAP), strumenti di analisi dei client e altre applicazioni che gestiscono il processo di analisi dei dati e la consegna agli utenti aziendali.

Riassumiamo cos'è il data warehouse:

  1. Soggetto-oriented

Un data warehouse può essere utilizzato per analizzare una particolare area tematica come vendite, finanza e inventario. Ogni area tematica contiene dati dettagliati.

  1. integrato

Un data warehouse integra i dati provenienti da più origini dati. Ad esempio, le date sono nello stesso formato, i codici maschio / femmina sono coerenti. In un data warehouse, ci sarà un solo modo per identificare un prodotto e usano lo stesso record del cliente, non le copie

  1. Non volatile

I dati vengono archiviati nel data warehouse senza modifiche e non cambieranno. Pertanto, i dati storici in un data warehouse non devono mai essere modificati.

  1. Variante temporale

si possono recuperare dati da 3 mesi, 6 mesi, 12 mesi o anche dati più vecchi da un data warehouse.

  1. Non virtuale

Il data warehouse è un repository fisico e persistente.

Data Warehouse vs Hadoop (Infografica)

Di seguito sono riportati i primi 6 confronti tra Data Warehouse e Hadoop

Data Warehouse vs Hadoop: quale utilizzare?

  • Se disponi di dati puliti, coerenti e di alta qualità, dovresti scegliere Data Warehouse perché Hadoop manca di qualità dei dati in alcune delle sue soluzioni.
  • Se disponi di dati non strutturati non elaborati, dovresti scegliere Hadoop perché Hadoop funziona bene con dati non strutturati / non elaborati ma Data Warehouse funziona solo con dati strutturati.
  • Per rapporti a bassa latenza e interattivi, dovresti scegliere Data Warehouse
  • Per le query OLTP / Real-time / Point dovresti scegliere Data Warehouse perché Hadoop funziona bene con i dati batch.
  • Per set di dati di grandi volumi, dovresti scegliere Hadoop perché Hadoop è progettato per risolvere i problemi dei Big Data.

Tabella di confronto testa a testa tra Data Warehouse vs Hadoop

Di seguito è riportato un elenco di punti che descrivono i confronti tra Data Warehouse e Hadoop

Base per il confrontoData WarehouseHadoop
DatiIn Data Warehouse analizziamo i dati strutturati ed elaboratiIn Hadoop, siamo in grado di elaborare qualsiasi tipo di dati, inclusi quelli strutturati / non strutturati / semi-strutturati e grezzi
in lavorazioneLa sua elaborazione si basa su concetti di schema in scritturaLa sua elaborazione si basa su concetti di schema a lettura
ConservazioneAdatto per dati con volume ridotto ed è troppo costoso per dati di volume elevatoFunziona bene con set di dati di grandi dimensioni con volume, velocità e varietà enormi
AgilitàÈ meno agile e di configurazione fissaÈ altamente agile, configura e riconfigura secondo necessità
SicurezzaLe tecnologie di data warehouse sono in circolazione da decenni. Pertanto, in termini di sicurezza, possiamo fare affidamento su Data WarehouseMentre le tecnologie Hadoop sono relativamente nuove rispetto a Data Warehouse, la sicurezza è una grande preoccupazione qui
utentiI professionisti aziendali di solito utilizzano il data warehouseHadoop è abbastanza famoso nel campo della scienza dei dati e dell'ingegneria dei dati

Conclusione - Data Warehouse vs Hadoop

Ora conosciamo entrambi Data Warehouse e Hadoop, torniamo indietro ed esaminiamo la domanda che abbiamo posto all'inizio di questo articolo Data Warehouse e Hadoop -

1) se disponi di big data, hai bisogno di un data warehouse?

Risposta: fintanto che la tua organizzazione necessita di dati affidabili, credibili e accessibili, allora hai bisogno di un data warehouse.

2) Hadoop sostituirà il data warehouse?

Risposta - Confrontare Data Warehouse vs Hadoop è come confrontare mele e arance. Entrambi Data Warehouse e Hadoop hanno i loro vantaggi in diversi scenari di casi d'uso. In alcuni casi, dipendiamo ancora dalle tecniche tradizionali di Data Warehouse ma, con il passare del tempo, ci concentriamo maggiormente su Hadoop Framework per gestire i problemi dei Big Data.

3) È questa la morte dell'era tradizionale del Data Warehouse?

Risposta - Come puoi vedere, questa non è davvero una domanda semplice e quindi non si presta bene a una risposta semplice. È vero che i big data cambieranno il tradizionale approccio di data warehousing nei prossimi anni, ma non saranno obsoleti i concetti e la pratica del data warehousing.

Articolo raccomandato

Questa è stata una guida utile a Data Warehouse vs Hadoop qui abbiamo discusso il loro significato, confronto testa a testa, differenza chiave e conclusioni. Puoi anche leggere il seguente articolo per saperne di più -

  1. Hadoop vs Splunk: scopri le 7 migliori differenze
  2. Hadoop vs Elasticsearch - Quale è più utile
  3. Big Data vs Data Warehouse: scopri le migliori differenze
  4. Business Intelligence vs Data Warehouse
  5. Splunk vs Nagios