Introduzione all'integrazione dei dati Talend

Integrazione dei dati Talend significa combinare i dati provenienti da diverse fonti e combinarli in un'unica vista per ottenere alcuni dati significativi da ciò che può aiutare l'azienda o l'organizzazione a migliorare il proprio business analizzando tali dati. L'integrazione aiuta a ottenere dati, a pulirli apportando alcune necessarie trasformazioni ecc., Quindi a caricarli in un data warehouse.

Cos'è Talend Data Integration?

  • Talend è uno strumento ETL utilizzato per l'integrazione dei dati. Talend offre una soluzione per la preparazione, la qualità dei dati, l'integrazione dei dati e i big data.
  • Talend offre Open Studio che è un open source per l'integrazione di dati e big data.
  • Talend open studio aiuta a gestire enormi quantità di dati con componenti di big data. Dispone di oltre 800 componenti per vari scopi di integrazione. Qui discuteremo alcuni dei componenti. Per semplificare vedere l'esempio seguente
  • Un operatore di sim ha enormi dati su piani, clienti, dettagli di sim, ecc. Questi dati sono enormi, quindi nell'integrazione vengono utilizzati anche big data.

Cliente A che acquista un sim usando un ID governativo.
Dando il suo nome: AB C
Indirizzo come: Chennai, Chennai
Numero di telefono: 1234567890

Dopo l'integrazione dei dati

Nome: AB
Cognome: C
Indirizzo: Chennai, India
Numero di telefono: +911234567890

Qui i dati vengono ripuliti e trasformati in qualcosa di più significativo.

Vantaggi dell'integrazione dei dati

Qui discuteremo i vantaggi dell'integrazione dei dati.

  1. Analizzare le tendenze del business utilizzando l'integrazione dei dati
  2. Combinazione dei dati in un unico sistema
  3. Risparmio di tempo, maggiore efficienza e meno rilavorazioni
  4. Generazione semplice di report: utilizzata dagli strumenti di BI
  5. Mantenimento e inserimento dei dati nel data warehouse e data mart

Applicazione di Talend Data Integration

Qui discuteremo dell'applicazione dell'integrazione dei dati Talend.

1. Lavorare con Talend

  • Assicurati di aver installato Java e di impostare le variabili di ambiente.
  • Scarica l'open-source dal sito Web Talend e installa il software.
  • Crea un nuovo progetto e completa l'installazione
  • Talend si aprirà con la scheda Designer.
  • Talend è uno strumento basato su eclissi e i componenti possono essere trascinati dalla tavolozza oppure è possibile fare clic e digitare il nome dei componenti.

2. Primo lavoro che legge un file

  • Cerca il componente tFileinputdelimited. Questo componente viene utilizzato per leggere qualsiasi file delimitato.
  • Posizionare il componente delimitato da tFileinput. Cerca tLogRow e inseriscilo nella finestra di progettazione lavoro.
  • Fare clic con il pulsante destro del mouse su File in ingresso delimitato e selezionare riga-> principale e disegnare una linea su tLogRow.
  • Nel componente, la scheda seleziona il percorso del file che si desidera leggere e fornisce il separatore di riga come \ n. Se il file ha delimitatore puoi menzionare il delimitatore.
  • Fare clic sullo schema e fornire i dettagli del tipo di colonna oppure è possibile leggere l'intera riga come una stringa con una colonna e il valore delimitatore deve essere vuoto.
  • Puoi anche saltare l'intestazione e il piè di pagina.
  • Nel componente tLogRow selezionare il modo in cui si desidera visualizzare i dati. Formato tabella o formato a riga singola.
  • tLogRow visualizza l'output nella console di esecuzione.
  • Dopo aver collegato sia tFileinputdelimited che tLogRow, eseguire il lavoro dalla scheda Esegui.
  • Puoi vedere il contenuto del file nella console stampato.

3. Secondo lavoro usando Tmap

  • Leggi un file e filtralo in diversi file di output.
  • Leggere un file nel componente tFileinputdelimited con uno schema a colonna come record.
  • Componente Tmap: questo componente aiuta a trasformare i dati con alcune funzioni integrate come ricerca, join, ecc.
  • In tmap creare due output out1 e out2.
  • Nel filtro out1 aggiungi record.contains ("talend") e disegna il record su out1.
  • Disegna la linea di registrazione su un altro out2.
  • Dalla tmap prendere le righe principali e connettersi a due tFileoutputdelimited.
  • out1 collega a un tfileoutputdelimited1 come file1.txt e out2 a un altro tfileoutputdelimited2 come file2.txt.
  • txt avrà record che contengono talend.
  • txt avrà record che hanno altri nomi.

4. Incorporato e repository

  • Integrato significa che è necessario impostare ogni volta schema o dettagli per la connessione a un database.
  • Il repository è utile per salvare i dettagli nei metadati in modo da poter riutilizzare gli stessi dettagli ogni volta senza inserire manualmente i dettagli ogni volta. Nei metadati, è possibile salvare lo schema dei file, le connessioni al database, la connessione Hadoop, la connessione hive, la connessione s3 e molte altre.

Componenti di Talend Data Integration

Qui discuteremo i componenti di Talend Data Integration.

1. tFileList: questo componente elenca i file in una directory o cartella con un determinato modello di maschera file.

2. tMysqlConnection: questo componente viene utilizzato per la connessione con il database MySQL. I componenti Mysql possono utilizzare questa connessione per una facile configurazione della connessione al database.

3. tMysqlInput: questo componente consente di eseguire una query del database mysql e ottenere la tabella o le colonne. Questo componente viene utilizzato per selezionare le query e ottenere i dettagli.

4. tMysqlOutput: questo componente viene utilizzato per inserire o aggiornare i dati nel database Mysql.

5. tPrejob: questo componente è il primo da eseguire nel lavoro e può essere collegato con altri componenti con su Subjob ok.

6. tPostjob: questo componente è l'ultimo da eseguire nel lavoro. È possibile connetterlo con i componenti di chiusura della connessione.

7. tLogcatcher: questo componente rileva l'avvertimento e gli errori nel lavoro. Questo è il componente più importante utilizzato nella tecnica di gestione degli errori. I log degli errori possono essere scritti utilizzando questo componente insieme a tfileoutputdelimited. Ci sono più di 800+ componenti.

8. Variabile di contesto: le variabili di contesto sono variabili che possono essere utilizzate nel lavoro ovunque. Contiene valori e può essere passato a un altro lavoro anche utilizzando i componenti tRun. Gli usi delle variabili di contesto sono che possiamo modificare il valore per scopi diversi. Ad esempio, possiamo avere un set di valori per il gruppo di contesto di sviluppo e un diverso set di valori di contesto per la produzione. In questo modo non è necessario cambiare lavoro, basta cambiare i parametri di contesto.

9. Creazione di un lavoro: per creare un lavoro, fare clic con il tasto destro del mouse sul lavoro e selezionare un lavoro di costruzione. È possibile importare il processo di compilazione in TAC. In Talend Administration Console si pianifica un lavoro per attivare anche la dipendenza del set di lavori. Puoi anche importare il lavoro dal repository Nexus usando un lavoro artefatto.

10. Creare un'attività in TAC: aprire il conduttore di lavoro in TAC. Fare clic su nuove attività e selezionare attività normali o artefatto. Importa il processo di creazione o seleziona da Nexus. Seleziona il job server in cui verrà eseguito il talend. Salva l'attività. Ora puoi distribuire ed eseguire il lavoro.

Conclusione

  • "Semplifica ETL ed ELT con il principale strumento ETL open source leader di settore per i big data." È lo slogan di open studio.
  • Talend Bigdata ha molti componenti per la gestione di enormi dati.
  • Lavori standard, lavori Bigdata, lavori streaming Bigdata sono i diversi tipi di lavori disponibili in Talend.
  • I lavori Bigdata possono essere creati in un framework spark o MapReduce.

Articolo raccomandato

Questa è una guida per l'integrazione dei dati Talend. Qui discutiamo l'introduzione a Talend Data Integration e i vantaggi insieme ad applicazioni e componenti. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più

  1. Strumento di integrazione dei dati | I migliori 12 strumenti
  2. Talend intervista domande e risposte
  3. I migliori strumenti di visualizzazione dei dati con i suoi tipi
  4. Talend vs Mulesoft - Differenze
  5. Che cos'è Data Mart?

Categoria: