Introduzione del processo ETL

ETL è uno dei processi importanti richiesti dalla Business Intelligence. La Business Intelligence si basa sui dati archiviati nei data warehouse da cui vengono generate molte analisi e report che aiutano a sviluppare strategie più efficaci e portano a intuizioni e processi decisionali tattici e operativi.

ETL si riferisce al processo di estrazione, trasformazione e caricamento. È una sorta di fase di integrazione dei dati in cui i dati provenienti da diverse origini vengono estratti e inviati ai data warehouse. I dati estratti da varie risorse vengono prima trasformati per convertirli in un formato specifico in base alle esigenze aziendali. Vari strumenti che aiutano a svolgere queste attività sono:

  • IBM DataStage
  • Dall'inizio
  • informatica
  • quadro
  • Talend

Processo ETL

Come funziona?

Il processo ETL è un processo in 3 fasi che inizia con l'estrazione dei dati da varie origini dati e quindi i dati grezzi subiscono varie trasformazioni per renderlo adatto per l'archiviazione nel data warehouse e caricarlo nei data warehouse nel formato richiesto e renderlo pronto per analisi.

Passaggio 1: Estrai

Questo passaggio si riferisce al recupero dei dati richiesti da varie fonti presenti in diversi formati come XML, file Hadoop, file flat, JSON, ecc. I dati estratti vengono archiviati nell'area di gestione temporanea in cui vengono eseguite ulteriori trasformazioni. Pertanto, i dati vengono controllati accuratamente prima di spostarli nei data warehouse, altrimenti diventerà una sfida ripristinare le modifiche nei data warehouse.

Prima che si verifichi l'estrazione dei dati è necessaria una mappa dati corretta tra origine e destinazione, poiché il processo ETL deve interagire con vari sistemi come Oracle, Hardware, Mainframe, sistemi in tempo reale come ATM, Hadoop, ecc. Durante il recupero dei dati da questi sistemi .

Nota - Ma bisogna fare attenzione che questi sistemi devono rimanere inalterati durante l'estrazione.

Strategie di estrazione dei dati
  • Estrazione completa: segue quando interi dati provenienti da origini vengono caricati nei data warehouse che mostrano che il data warehouse viene popolato per la prima volta o non è stata elaborata alcuna strategia per l'estrazione dei dati.
  • Estrazione parziale (con notifica di aggiornamento): questa strategia è anche nota delta, in cui vengono estratti solo i dati che vengono modificati e vengono aggiornati i data warehouse
  • Estrazione parziale (senza notifica di aggiornamento): questa strategia si riferisce all'estrazione di dati richiesti specifici dalle fonti in base al carico nei data warehouse anziché all'estrazione di dati interi.

Passaggio 2: Trasforma

Questo passaggio è il passaggio più importante di ETL. In questo passaggio vengono eseguite molte trasformazioni per rendere i dati pronti per il caricamento nei data warehouse applicando le seguenti trasformazioni:

A. Trasformazioni di base: queste trasformazioni vengono applicate in ogni scenario in quanto sono esigenze di base durante il caricamento dei dati estratti da varie fonti, nei data warehouse

  • Pulizia o arricchimento dei dati: si riferisce alla pulizia dei dati indesiderati dall'area di gestione temporanea in modo che i dati errati non vengano caricati dai data warehouse.
  • Filtro: qui filtriamo i dati richiesti da una grande quantità di dati presenti in base alle esigenze aziendali. Ad esempio, per generare rapporti sulle vendite sono necessari solo i record delle vendite per quell'anno specifico.
  • Consolidamento: i dati estratti vengono consolidati nel formato richiesto prima di caricarli nei data warehouse.
  • Standardizzazioni: i campi dati vengono trasformati per portarli nello stesso formato richiesto, ad es. Il campo dati deve essere specificato come MM / GG / AAAA.

B. Trasformazioni avanzate: questi tipi di trasformazioni sono specifici per i requisiti aziendali.

  • Partecipazione: in questa operazione, i dati provenienti da 2 o più origini vengono combinati per generare dati con solo le colonne desiderate con righe correlate tra loro
  • Verifica convalida soglia dati: i valori presenti in vari campi vengono controllati se sono corretti o meno, ad esempio un numero di conto bancario nullo in caso di dati bancari.
  • Utilizzare le ricerche per unire i dati: vari file flat o altri file vengono utilizzati per estrarre le informazioni specifiche eseguendo l'operazione di ricerca su di essi.
  • Utilizzo di qualsiasi convalida di dati complessi: vengono applicate molte convalide complesse per estrarre dati validi solo dai sistemi di origine.
  • Valori calcolati e derivati: vengono applicati vari calcoli per trasformare i dati in alcune informazioni richieste
  • Duplicazione: i dati duplicati provenienti dai sistemi di origine vengono analizzati e rimossi prima di caricarli nei data warehouse.
  • Ristrutturazione delle chiavi: in caso di acquisizione di dati che cambiano lentamente, è necessario generare varie chiavi surrogate per strutturare i dati nel formato richiesto.

Nota - L'elaborazione parallela MPP-Massive viene talvolta utilizzata per eseguire alcune operazioni di base come il filtraggio o la pulizia dei dati nell'area di gestione temporanea per elaborare più rapidamente una grande quantità di dati.

Passaggio 3: carica

Questo passaggio si riferisce al caricamento dei dati trasformati nel data warehouse da dove possono essere utilizzati per generare molte decisioni di analisi e reportistica.

1. Carico iniziale: questo tipo di carico si verifica durante il caricamento dei dati nei data warehouse per la prima volta.

2. Carico incrementale: questo è il tipo di carico che viene eseguito per aggiornare il data warehouse su base periodica con le modifiche che si verificano nei dati di sistema di origine.

3. Aggiornamento completo: questo tipo di carico si riferisce alla situazione in cui i dati completi della tabella vengono eliminati e caricati con nuovi dati.

Il data warehouse consente quindi le funzionalità OLAP o OLTP.

Svantaggi del processo ETL

  1. Aumento dei dati: esiste un limite ai dati estratti da varie fonti dallo strumento ETL e inviati ai data warehouse. Pertanto, con l'aumento dei dati, lavorare con lo strumento ETL e i data warehouse diventa complicato.
  2. Personalizzazione: si riferisce alle soluzioni o risposte rapide ed efficaci ai dati generati dai sistemi di origine. Ma l'utilizzo dello strumento ETL qui rallenta questo processo.
  3. Costoso: l'utilizzo di un data warehouse per archiviare periodicamente una quantità crescente di dati generati è un costo elevato che un'organizzazione deve pagare.

Conclusione - Processo ETL

Lo strumento ETL comprende processi di estrazione, trasformazione e caricamento in cui aiuta a generare informazioni dai dati raccolti da vari sistemi di origine. I dati dal sistema di origine possono essere disponibili in qualsiasi formato e possono essere caricati in qualsiasi formato desiderato nei data warehouse, pertanto lo strumento ETL deve supportare la connettività a tutti i tipi di questi formati.

Articoli consigliati

Questa è una guida per un processo ETL. Qui discutiamo dell'introduzione, Come funziona ?, Strumenti ETL e i suoi svantaggi. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più–

  1. Strumenti ETL Informatica
  2. Strumenti di test ETL
  3. Che cos'è ETL?
  4. Che cos'è il test ETL?

Categoria: