Introduzione a Talend Open Studio
Talend offre Open Studio che è un open source per l'integrazione dei dati. Dispone di oltre 800 componenti per vari scopi di integrazione. Scarica Talend Open Studio da https://www.talend.com/download/
Integrazione dei dati significa combinare i dati provenienti da diverse fonti e combinarli in un'unica vista per ottenere alcuni dati significativi da ciò che può aiutare l'azienda o l'organizzazione a migliorare il proprio business analizzando tali dati. L'integrazione aiuta a ottenere dati, a pulirli apportando alcune necessarie trasformazioni ecc., Quindi a caricarli in un data warehouse.
Che cos'è Talend?
Talend è uno strumento ETL utilizzato per l'integrazione dei dati. Talend offre una soluzione per la preparazione, la qualità dei dati, l'integrazione dei dati e i big data. Qui discuteremo alcuni dei componenti. Per semplificare la visualizzazione dell'esempio seguente Un operatore di sim ha dati enormi su piani, clienti, dettagli di sim, ecc. Questi dati sono enormi, quindi nell'integrazione vengono utilizzati anche big data.
Cliente A che acquista un sim usando un ID governativo
Dando il suo nome come AB C
indirizzo come Chennai, Chennai
numero di telefono come 1234567890
Dopo l'integrazione dei dati
Nome: AB
Cognome: C
Indirizzo: Chennai, India
Numero di telefono: +911234567890
Qui i dati vengono ripuliti e trasformati in qualcosa di più significativo.
Benefici
- Analizzare le tendenze del business utilizzando l'integrazione dei dati
- Combinazione dei dati in un unico sistema
- Risparmio di tempo, maggiore efficienza e meno rilavorazioni
- Generazione semplice di report: utilizzata dagli strumenti di BI
- Mantenimento e inserimento dei dati nel data warehouse e data mart
Applicazione
Ecco le seguenti applicazioni menzionate di seguito
1. Lavorare con Talend
- Assicurati di aver installato Java e di impostare le variabili di ambiente.
- Scarica l'open-source dal sito Web Talend e installa il software.
- Crea un nuovo progetto e completa l'installazione
- Talend si aprirà con la scheda Designer.
- Talend è uno strumento basato su eclissi e i componenti possono essere trascinati dalla tavolozza oppure è possibile fare clic e digitare il nome dei componenti.
2. Il primo lavoro Leggere un file
- Cerca il componente tFileinputdelimited. Questo componente viene utilizzato per leggere qualsiasi file delimitato.
- Posizionare il componente delimitato da tfileinput. Cerca tlogrow e inseriscilo nella finestra di progettazione lavoro.
- Fai clic con il pulsante destro del mouse su input file delimitato e seleziona riga-> principale e disegna una linea per scorrere.
- Nel componente, la scheda seleziona il percorso del file che si desidera leggere e fornisce il separatore di riga come \ n. Se il file ha delimitatore puoi menzionare il delimitatore.
- Fare clic sullo schema e fornire i dettagli del tipo di colonna oppure è possibile leggere l'intera riga come una stringa con una colonna e il valore delimitatore deve essere vuoto.
- Puoi anche saltare l'intestazione e il piè di pagina.
- Nel componente tlogrow selezionare il modo in cui si desidera visualizzare i dati. Formato tabella o formato a riga singola.
- tlogrow visualizza l'output nella console di esecuzione.
- Dopo aver collegato sia tfileinputdelimited che tlogrow, eseguire il lavoro dalla scheda Esegui.
- Puoi vedere il contenuto del file nella console stampato.
3. Un secondo lavoro usando Tmap
- Leggi un file e filtralo in diversi file di output.
- Leggere un file nel componente tfileinputdelimited con uno schema di colonna come record.
- Componente Tmap: questo componente aiuta a trasformare i dati con alcune funzioni integrate come ricerca, join, ecc.
- In tmap creare due output out1 e out2.
- Nel filtro out1 aggiungi row3.record.contains ("talend") e disegna il record su out1.
- Disegna la linea di registrazione su un altro out2.
- Dalla tmap prendi le righe principali e connettiti a due tfileoutputdelimited.
- out1 collega a un tfileoutputdelimited1 come file1.txt e out2 a un altro tfileoutputdelimited2 come file2.txt.
- txt avrà record che contengono talend.
- txt avrà record che hanno altri nomi.
4. Incorporato e repository
- Integrato significa che è necessario impostare ogni volta schema o dettagli per la connessione a un database.
- Il repository è utile per salvare i dettagli nei metadati in modo da poter riutilizzare gli stessi dettagli ogni volta senza inserire manualmente i dettagli ogni volta. Nei metadati, è possibile salvare lo schema dei file, le connessioni al database, la connessione Hadoop, la connessione hive, la connessione s3 e molte altre.
Componenti di Talend Open Studio
Di seguito sono elencati i seguenti componenti di Talend Open Studio
1. tFileList
- Questo componente elenca i file in una directory o cartella con un determinato modello di maschera file.
2. tMysqlConnection
- Questo componente viene utilizzato per la connessione con il database mysql.
- I componenti Mysql possono utilizzare questa connessione per una facile configurazione della connessione al database.
3. tMysqlinput
- Questo componente consente di eseguire una query del database mysql e ottenere la tabella o le colonne. Questo componente viene utilizzato per selezionare le query e ottenere i dettagli.
4. tMysqlOutput
- Questo componente viene utilizzato per inserire o aggiornare i dati nel database Mysql.
5. tprejob
- Questo componente è il primo da eseguire nel lavoro e può essere collegato con altri componenti con il subjob ok.
6. tpostjob
- Questo componente è l'ultimo da eseguire nel lavoro. È possibile connetterlo con i componenti di chiusura della connessione.
7. tlogcatcher
- Questo componente rileva l'avvertimento e gli errori nel processo.
- Componente più importante utilizzato nella tecnica di gestione degli errori.
- I log degli errori possono essere scritti utilizzando questo componente insieme a tfileoutputdelimited.
- Ci sono più di 800+ componenti.
Variabile di contesto
- Le variabili di contesto sono variabili che possono essere utilizzate nel lavoro ovunque.
- Contiene valori e può essere passato a un altro lavoro anche utilizzando il componente trun.
- L'uso delle variabili di contesto è che possiamo modificare il valore per scopi diversi.
- Ad esempio, possiamo avere un set di valori per il gruppo di contesto di sviluppo e un diverso set di valori di contesto per la produzione.
- In questo modo non è necessario cambiare il lavoro, basta cambiare i parametri di contesto.
Costruire un lavoro
- Per creare un lavoro, fare clic con il pulsante destro del mouse sul lavoro e selezionare Crea lavoro.
- È possibile importare il processo di compilazione in TAC.
- In Talend Administration Console si pianifica un lavoro per attivare anche la dipendenza del set di lavori.
- Puoi anche importare il lavoro dal repository Nexus usando un lavoro artefatto.
Creare un'attività in TAC
- Conduttore di lavoro aperto in TAC
- Fare clic su nuove attività e selezionare attività normali o artefatto.
- Importa il lavoro creato o seleziona da Nexus.
- Seleziona il job server in cui verrà eseguito il talend.
- Salva l'attività.
- Ora puoi distribuire ed eseguire il lavoro.
Conclusione - Talend Open Studio
"Semplifica ETL ed ELT con il principale strumento ETL open source leader di settore per i big data." È lo slogan di open studio. Talend Bigdata ha molti componenti per la gestione di enormi dati. Lavori standard, lavori Bigdata, lavori streaming Bigdata sono i diversi tipi di lavori disponibili in Talend. I lavori Bigdata possono essere creati in un framework spark o mapreduce.
Articoli consigliati
Questa è una guida a Talend Open Studio. Qui discutiamo i vantaggi, le applicazioni e i componenti di Talend Open Studio. Puoi anche dare un'occhiata ai seguenti articoli per saperne di più -
- Guida all'integrazione dei dati Talend
- Importanti domande sul colloquio Talend
- Talend vs Mulesoft: Differenze
- Talend vs Pentaho: 8 utili confronti da imparare