Comando HDFS - Comando di base per avanzato con suggerimenti e trucchi

Introduzione ai comandi HDFS

Big data è una parola per insiemi di dati che sono così enormi o composti che il software applicativo convenzionale per l'elaborazione dei dati non è sufficiente per entrare in contatto con essi. Hadoop è un framework di programmazione open source basato su Java che incatena lo spazio di elaborazione e archiviazione di set di dati enormemente ingombranti in un ambiente informatico diffuso. La base software Apache è la chiave per l'installazione di Hadoop

Caratteristiche di HDFS:

HDFS funziona su architettura Master / slave
I file vengono utilizzati da HDFS per l'archiviazione dei dati relativi all'utente
contiene un enorme set di directory e file che sono memorizzati in un formato gerarchico.
All'interno, un file viene suddiviso in blocchi più piccoli e questi blocchi vengono archiviati in un set di Datanodes.
Namenode e Datanode sono la parte di software destinata a funzionare su macchine prodotto che girano classicamente su sistema operativo GNU / Linux.

Namenode:

Qui il file system è gestito dal nodo nome
Namenode è anche responsabile della registrazione di tutte le modifiche al file system e inoltre mantiene un'immagine dello spazio dei nomi del file system completo e del file Blockmap in memoria
Il checkpoint viene effettuato su base periodica. quindi facile recupero sul palco prima che il punto di incidente possa essere raggiunto qui.

Datanode:

Un Datanode effettua il provisioning dei dati nei file nel suo file system locale
Per intuirne l'esistenza, il nodo dati invia il battito cardiaco al namenode
Verrà generato un rapporto di blocco per ogni decimo battito cardiaco ricevuto
La replica è implicita sui dati memorizzati in questi nodi di dati

Replica dei dati:

Qui la sequenza di blocchi forma un file con una dimensione di blocco predefinita di 128 MB
Tutti i blocchi nel file, tranne quello finale, hanno dimensioni simili.
Da tutti i nodi di dati nel cluster, l'elemento namenode riceve un battito cardiaco
BlockReport contiene tutti i blocchi su un Datanode.
contiene un enorme set di directory e file che sono memorizzati in un formato gerarchico.
All'interno, un file viene suddiviso in blocchi più piccoli e questi blocchi vengono archiviati in un set di Datanodes.
Namenode e Datanode sono la parte di software destinata a funzionare su macchine prodotto che girano classicamente su sistema operativo GNU / Linux.

Job tracker: Discussione JobTracker al NameNode per concludere la posizione dei dati. Inoltre, individuare i nodi TaskTracker migliori per eseguire attività in base alla località dei dati

Task tracker: un TaskTracker è un nodo nel cluster che accetta attività - Operazioni mappa, riduzione e shuffle - da un JobTracker.

Nodo nodo di controllo Secondario (o) nodo: ottiene l'EditLog dal nodo del nome a intervalli regolari e si applica alla sua immagine FS. E copia un'immagine FS completata sul nodo nome durante il suo riavvio. Lo scopo del nodo Nome secondario è quello di avere un checkpoint in HDFS.

FILATO:

YARN ha un componente centrale di gestione delle risorse che gestisce le risorse e assegna le risorse a ciascuna applicazione.
Qui il Resource Manager è il master che giudica le risorse associate al cluster, il manager delle risorse è arrotolato di due componenti, il gestore dell'applicazione e uno scheduler questi due componenti gestiscono insieme i lavori sui sistemi del cluster. un altro componente chiama Node Manager (NM) che è responsabile della gestione dei lavori e del flusso di lavoro degli utenti su un determinato nodo.
Una replica esatta dei dati nel namenode attivo è conservata dal StandN NameNode. Funziona come uno slave, mantiene uno stato sufficiente per fornire un failover rapido, se essenziale.

Comandi base HDFS:

Comandi di base HDFS
Sr.No	Proprietà del comando HDFS	Comando HDFS
1	Stampa versione hadoop	$ hadoop version
2	Elencare il contenuto della directory principale in HDFS	$ hadoop fs -ls
3	Riporta la quantità di spazio utilizzata e disponibile su un filesystem attualmente montato	$ hadoop fs -df hdfs: /
4	Il bilanciatore HDFS riequilibra i dati attraverso i DataNode, spostando i blocchi da nodi sovrautilizzati a nodi sottoutilizzati.	$ hadoop bilanciatore
5	Aiuto comando	$ hadoop fs -help

Comandi HDFS intermedi:

Comandi HDFS intermedi
Sr.No	Proprietà del comando HDFS	Comando HDFS
6	crea una directory nella posizione HDFS specificata	$ hadoop fs -mkdir / user / cloudera /
7	Copia i dati da una posizione a un'altra	$ hadoop fs -put data / sample.txt / utente / training / hadoop
8	Vedi lo spazio occupato da una particolare directory in HDFS	$ hadoop fs -du -s -h / user / cloudera /
9	Rimuovere una directory in Hadoop	$ hadoop fs -rm -r / user / cloudera / pigjobs /
10	Rimuove tutti i file nella directory indicata	$ hadoop fs -rm -skipTrash hadoop / vendita al dettaglio / *
11	Per svuotare la spazzatura	$ hadoop fs -expunge
12	copia i dati da e verso locale su HDFS	$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume / $ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Comandi HDFS avanzati:

Comandi HDFS intermedi
Sr.No	Proprietà del comando HDFS	Comando HDFS
13	cambia i permessi dei file	$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14	imposta il fattore di replica dei dati per un file	$ hadoop fs -setrep -w 5 / user / cloudera / pigjobs /
15	Conta il numero di directory, file e byte in hdfs	$ hadoop fs -count hdfs: /
16	far sì che namenode esista in modalità sicura	$ sudo -u hdfs hdfs dfsadmin -safemode congedo
17	Hadoop formatta un namenode	$ hadoop namenode -format

Suggerimenti e trucchi per HDFS:

1) È possibile ottenere un ripristino più rapido quando il conteggio dei nodi del cluster è maggiore.

2) L'aumento della memoria per unità di tempo aumenta il tempo di recupero.

3) L'hardware Namenode deve essere molto affidabile.

4) Il monitoraggio sofisticato può essere raggiunto attraverso ambari.

5) La fame nel sistema può essere ridotta aumentando il conteggio del riduttore.

Articoli consigliati

Questa è stata una guida ai comandi HDFS. Qui abbiamo discusso dei comandi, delle funzionalità, dei comandi di base, intermedi e avanzati di HDFS con rappresentazione grafica, suggerimenti e trucchi sui comandi. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -

Comandi nodo
Comandi Matlab
Vantaggi del DBMS
Hadoop Ecosystem
Comandi fs di Hadoop

Comando HDFS - Comando di base per avanzato con suggerimenti e trucchi

Sommario:

Introduzione ai comandi HDFS

Caratteristiche di HDFS:

Namenode:

Datanode:

Replica dei dati:

FILATO:

Comandi base HDFS:

Comandi HDFS intermedi:

Comandi HDFS avanzati:

Suggerimenti e trucchi per HDFS:

Articoli consigliati

Valore attuale vs valore futuro - 6 migliori differenze (con infografica)

Valore attuale della formula di rendita dovuta Calcolatrice (con modello Excel)

Formazione sulle abilità di presentazione - Come svilupparla efficacemente

Formula di elasticità dei prezzi - Calcolatrice (modello Excel)

Formula di elasticità del prezzo dell'offerta - Calcolatrice (modello Excel)

Lo strumento Lazo poligonale - Selezioni Photoshop

Rendi Photoshop l'editor di immagini predefinito in Windows 10

Gestione dei pannelli in Photoshop CC

Comando Dimensione immagine di Photoshop - Funzionalità e suggerimenti

Perché abbiamo bisogno di selezioni in Photoshop

Squali di prestito - Esempi - Vantaggi e svantaggi degli strozzini

Prestiti vs anticipi - Le 6 migliori differenze sorprendenti (con infografica)

Prestito vs mutuo - Le 7 migliori differenze (con infografica)

Localizzazione vs internazionalizzazione - Le 7 principali differenze utili da imparare

LN in Excel (formula, esempi) - Come usare la funzione LN?