Comando HDFS - Comando di base per avanzato con suggerimenti e trucchi

Sommario:

Anonim

Introduzione ai comandi HDFS

Big data è una parola per insiemi di dati che sono così enormi o composti che il software applicativo convenzionale per l'elaborazione dei dati non è sufficiente per entrare in contatto con essi. Hadoop è un framework di programmazione open source basato su Java che incatena lo spazio di elaborazione e archiviazione di set di dati enormemente ingombranti in un ambiente informatico diffuso. La base software Apache è la chiave per l'installazione di Hadoop

Caratteristiche di HDFS:

  • HDFS funziona su architettura Master / slave
  • I file vengono utilizzati da HDFS per l'archiviazione dei dati relativi all'utente
  • contiene un enorme set di directory e file che sono memorizzati in un formato gerarchico.
  • All'interno, un file viene suddiviso in blocchi più piccoli e questi blocchi vengono archiviati in un set di Datanodes.
  • Namenode e Datanode sono la parte di software destinata a funzionare su macchine prodotto che girano classicamente su sistema operativo GNU / Linux.

Namenode:

  • Qui il file system è gestito dal nodo nome
  • Namenode è anche responsabile della registrazione di tutte le modifiche al file system e inoltre mantiene un'immagine dello spazio dei nomi del file system completo e del file Blockmap in memoria
  • Il checkpoint viene effettuato su base periodica. quindi facile recupero sul palco prima che il punto di incidente possa essere raggiunto qui.

Datanode:

  • Un Datanode effettua il provisioning dei dati nei file nel suo file system locale
  • Per intuirne l'esistenza, il nodo dati invia il battito cardiaco al namenode
  • Verrà generato un rapporto di blocco per ogni decimo battito cardiaco ricevuto
  • La replica è implicita sui dati memorizzati in questi nodi di dati

Replica dei dati:

  • Qui la sequenza di blocchi forma un file con una dimensione di blocco predefinita di 128 MB
  • Tutti i blocchi nel file, tranne quello finale, hanno dimensioni simili.
  • Da tutti i nodi di dati nel cluster, l'elemento namenode riceve un battito cardiaco
  • BlockReport contiene tutti i blocchi su un Datanode.
  • contiene un enorme set di directory e file che sono memorizzati in un formato gerarchico.
  • All'interno, un file viene suddiviso in blocchi più piccoli e questi blocchi vengono archiviati in un set di Datanodes.
  • Namenode e Datanode sono la parte di software destinata a funzionare su macchine prodotto che girano classicamente su sistema operativo GNU / Linux.

Job tracker: Discussione JobTracker al NameNode per concludere la posizione dei dati. Inoltre, individuare i nodi TaskTracker migliori per eseguire attività in base alla località dei dati

Task tracker: un TaskTracker è un nodo nel cluster che accetta attività - Operazioni mappa, riduzione e shuffle - da un JobTracker.

Nodo nodo di controllo Secondario (o) nodo: ottiene l'EditLog dal nodo del nome a intervalli regolari e si applica alla sua immagine FS. E copia un'immagine FS completata sul nodo nome durante il suo riavvio. Lo scopo del nodo Nome secondario è quello di avere un checkpoint in HDFS.

FILATO:

  • YARN ha un componente centrale di gestione delle risorse che gestisce le risorse e assegna le risorse a ciascuna applicazione.
  • Qui il Resource Manager è il master che giudica le risorse associate al cluster, il manager delle risorse è arrotolato di due componenti, il gestore dell'applicazione e uno scheduler questi due componenti gestiscono insieme i lavori sui sistemi del cluster. un altro componente chiama Node Manager (NM) che è responsabile della gestione dei lavori e del flusso di lavoro degli utenti su un determinato nodo.
  • Una replica esatta dei dati nel namenode attivo è conservata dal StandN NameNode. Funziona come uno slave, mantiene uno stato sufficiente per fornire un failover rapido, se essenziale.

Comandi base HDFS:

Comandi di base HDFS

Sr.NoProprietà del comando HDFSComando HDFS
1Stampa versione hadoop$ hadoop version
2Elencare il contenuto della directory principale in HDFS$ hadoop fs -ls
3Riporta la quantità di spazio utilizzata e disponibile su un filesystem attualmente montato$ hadoop fs -df hdfs: /
4Il bilanciatore HDFS riequilibra i dati attraverso i DataNode, spostando i blocchi da nodi sovrautilizzati a nodi sottoutilizzati.$ hadoop bilanciatore
5Aiuto comando$ hadoop fs -help

Comandi HDFS intermedi:

Comandi HDFS intermedi

Sr.NoProprietà del comando HDFSComando HDFS
6crea una directory nella posizione HDFS specificata$ hadoop fs -mkdir / user / cloudera /
7Copia i dati da una posizione a un'altra$ hadoop fs -put data / sample.txt / utente / training / hadoop
8Vedi lo spazio occupato da una particolare directory in HDFS$ hadoop fs -du -s -h / user / cloudera /
9Rimuovere una directory in Hadoop$ hadoop fs -rm -r / user / cloudera / pigjobs /
10Rimuove tutti i file nella directory indicata$ hadoop fs -rm -skipTrash hadoop / vendita al dettaglio / *
11Per svuotare la spazzatura$ hadoop fs -expunge
12copia i dati da e verso locale su HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /

$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Comandi HDFS avanzati:

Comandi HDFS intermedi

Sr.NoProprietà del comando HDFSComando HDFS
13cambia i permessi dei file$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14imposta il fattore di replica dei dati per un file$ hadoop fs -setrep -w 5 / user / cloudera / pigjobs /
15Conta il numero di directory, file e byte in hdfs$ hadoop fs -count hdfs: /
16far sì che namenode esista in modalità sicura$ sudo -u hdfs hdfs dfsadmin -safemode congedo
17Hadoop formatta un namenode$ hadoop namenode -format

Suggerimenti e trucchi per HDFS:

1) È possibile ottenere un ripristino più rapido quando il conteggio dei nodi del cluster è maggiore.

2) L'aumento della memoria per unità di tempo aumenta il tempo di recupero.

3) L'hardware Namenode deve essere molto affidabile.

4) Il monitoraggio sofisticato può essere raggiunto attraverso ambari.

5) La fame nel sistema può essere ridotta aumentando il conteggio del riduttore.

Articoli consigliati

Questa è stata una guida ai comandi HDFS. Qui abbiamo discusso dei comandi, delle funzionalità, dei comandi di base, intermedi e avanzati di HDFS con rappresentazione grafica, suggerimenti e trucchi sui comandi. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -

  1. Comandi nodo
  2. Comandi Matlab
  3. Vantaggi del DBMS
  4. Hadoop Ecosystem
  5. Comandi fs di Hadoop