Introduzione ai comandi HDFS
Big data è una parola per insiemi di dati che sono così enormi o composti che il software applicativo convenzionale per l'elaborazione dei dati non è sufficiente per entrare in contatto con essi. Hadoop è un framework di programmazione open source basato su Java che incatena lo spazio di elaborazione e archiviazione di set di dati enormemente ingombranti in un ambiente informatico diffuso. La base software Apache è la chiave per l'installazione di Hadoop
Caratteristiche di HDFS:
- HDFS funziona su architettura Master / slave
- I file vengono utilizzati da HDFS per l'archiviazione dei dati relativi all'utente
- contiene un enorme set di directory e file che sono memorizzati in un formato gerarchico.
- All'interno, un file viene suddiviso in blocchi più piccoli e questi blocchi vengono archiviati in un set di Datanodes.
- Namenode e Datanode sono la parte di software destinata a funzionare su macchine prodotto che girano classicamente su sistema operativo GNU / Linux.
Namenode:
- Qui il file system è gestito dal nodo nome
- Namenode è anche responsabile della registrazione di tutte le modifiche al file system e inoltre mantiene un'immagine dello spazio dei nomi del file system completo e del file Blockmap in memoria
- Il checkpoint viene effettuato su base periodica. quindi facile recupero sul palco prima che il punto di incidente possa essere raggiunto qui.
Datanode:
- Un Datanode effettua il provisioning dei dati nei file nel suo file system locale
- Per intuirne l'esistenza, il nodo dati invia il battito cardiaco al namenode
- Verrà generato un rapporto di blocco per ogni decimo battito cardiaco ricevuto
- La replica è implicita sui dati memorizzati in questi nodi di dati
Replica dei dati:
- Qui la sequenza di blocchi forma un file con una dimensione di blocco predefinita di 128 MB
- Tutti i blocchi nel file, tranne quello finale, hanno dimensioni simili.
- Da tutti i nodi di dati nel cluster, l'elemento namenode riceve un battito cardiaco
- BlockReport contiene tutti i blocchi su un Datanode.
- contiene un enorme set di directory e file che sono memorizzati in un formato gerarchico.
- All'interno, un file viene suddiviso in blocchi più piccoli e questi blocchi vengono archiviati in un set di Datanodes.
- Namenode e Datanode sono la parte di software destinata a funzionare su macchine prodotto che girano classicamente su sistema operativo GNU / Linux.
Job tracker: Discussione JobTracker al NameNode per concludere la posizione dei dati. Inoltre, individuare i nodi TaskTracker migliori per eseguire attività in base alla località dei dati
Task tracker: un TaskTracker è un nodo nel cluster che accetta attività - Operazioni mappa, riduzione e shuffle - da un JobTracker.
Nodo nodo di controllo Secondario (o) nodo: ottiene l'EditLog dal nodo del nome a intervalli regolari e si applica alla sua immagine FS. E copia un'immagine FS completata sul nodo nome durante il suo riavvio. Lo scopo del nodo Nome secondario è quello di avere un checkpoint in HDFS.
FILATO:
- YARN ha un componente centrale di gestione delle risorse che gestisce le risorse e assegna le risorse a ciascuna applicazione.
- Qui il Resource Manager è il master che giudica le risorse associate al cluster, il manager delle risorse è arrotolato di due componenti, il gestore dell'applicazione e uno scheduler questi due componenti gestiscono insieme i lavori sui sistemi del cluster. un altro componente chiama Node Manager (NM) che è responsabile della gestione dei lavori e del flusso di lavoro degli utenti su un determinato nodo.
- Una replica esatta dei dati nel namenode attivo è conservata dal StandN NameNode. Funziona come uno slave, mantiene uno stato sufficiente per fornire un failover rapido, se essenziale.
Comandi base HDFS:
Comandi di base HDFS |
||
Sr.No | Proprietà del comando HDFS | Comando HDFS |
1 | Stampa versione hadoop | $ hadoop version |
2 | Elencare il contenuto della directory principale in HDFS | $ hadoop fs -ls |
3 | Riporta la quantità di spazio utilizzata e disponibile su un filesystem attualmente montato | $ hadoop fs -df hdfs: / |
4 | Il bilanciatore HDFS riequilibra i dati attraverso i DataNode, spostando i blocchi da nodi sovrautilizzati a nodi sottoutilizzati. | $ hadoop bilanciatore |
5 | Aiuto comando | $ hadoop fs -help |
Comandi HDFS intermedi:
Comandi HDFS intermedi |
||
Sr.No | Proprietà del comando HDFS | Comando HDFS |
6 | crea una directory nella posizione HDFS specificata | $ hadoop fs -mkdir / user / cloudera / |
7 | Copia i dati da una posizione a un'altra | $ hadoop fs -put data / sample.txt / utente / training / hadoop |
8 | Vedi lo spazio occupato da una particolare directory in HDFS | $ hadoop fs -du -s -h / user / cloudera / |
9 | Rimuovere una directory in Hadoop | $ hadoop fs -rm -r / user / cloudera / pigjobs / |
10 | Rimuove tutti i file nella directory indicata | $ hadoop fs -rm -skipTrash hadoop / vendita al dettaglio / * |
11 | Per svuotare la spazzatura | $ hadoop fs -expunge |
12 | copia i dati da e verso locale su HDFS | $ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /
$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie / |
Comandi HDFS avanzati:
Comandi HDFS intermedi |
||
Sr.No | Proprietà del comando HDFS | Comando HDFS |
13 | cambia i permessi dei file | $ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume / |
14 | imposta il fattore di replica dei dati per un file | $ hadoop fs -setrep -w 5 / user / cloudera / pigjobs / |
15 | Conta il numero di directory, file e byte in hdfs | $ hadoop fs -count hdfs: / |
16 | far sì che namenode esista in modalità sicura | $ sudo -u hdfs hdfs dfsadmin -safemode congedo |
17 | Hadoop formatta un namenode | $ hadoop namenode -format |
Suggerimenti e trucchi per HDFS:
1) È possibile ottenere un ripristino più rapido quando il conteggio dei nodi del cluster è maggiore.
2) L'aumento della memoria per unità di tempo aumenta il tempo di recupero.
3) L'hardware Namenode deve essere molto affidabile.
4) Il monitoraggio sofisticato può essere raggiunto attraverso ambari.
5) La fame nel sistema può essere ridotta aumentando il conteggio del riduttore.
Articoli consigliati
Questa è stata una guida ai comandi HDFS. Qui abbiamo discusso dei comandi, delle funzionalità, dei comandi di base, intermedi e avanzati di HDFS con rappresentazione grafica, suggerimenti e trucchi sui comandi. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -
- Comandi nodo
- Comandi Matlab
- Vantaggi del DBMS
- Hadoop Ecosystem
- Comandi fs di Hadoop