Introduzione ai grafici in R
Un grafico è uno strumento che fa una differenza significativa per l'analisi. I grafici in Rare sono importanti in quanto aiutano a presentare i risultati nel modo più interattivo. R, come pacchetto di programmazione statistica, offre ampie opzioni per generare una varietà di grafici.
Alcuni dei grafici in R sono disponibili nell'installazione di base, ma altri possono essere utilizzati installando pacchetti richiesti. La caratteristica unica dei grafici in R è che spiegano intricati risultati statistici attraverso visualizzazioni. Quindi, in sostanza, è come spostare un gradino sopra il modo tradizionale di visualizzare i dati. R, quindi, offre un approccio immediato per guidare l'analisi.
Tipi di grafici in R
Una varietà di grafici è disponibile in R e l'uso è governato esclusivamente dal contesto. Tuttavia, l'analisi esplorativa richiede l'uso di alcuni grafici in R, che devono essere utilizzati per l'analisi dei dati. Vedremo ora alcuni dei grafici così importanti in R.
Per la dimostrazione di vari grafici, utilizzeremo il set di dati "alberi" disponibile nell'installazione di base. Maggiori dettagli sul set di dati possono essere scoperti usando? comando alberi in R.
1. Istogramma
Un istogramma è uno strumento grafico che funziona su una singola variabile. Numerosi valori variabili sono raggruppati in bin e vengono calcolati un numero di valori definiti come frequenza. Questo calcolo viene quindi utilizzato per tracciare le barre di frequenza nei rispettivi bean. L'altezza di una barra è rappresentata dalla frequenza.
In R , possiamo utilizzare la funzione hist () come mostrato di seguito, per generare l'istogramma. Di seguito è mostrato un semplice istogramma delle altezze degli alberi.
Codice:
hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")
Produzione:
Per comprendere l'andamento della frequenza, possiamo aggiungere un diagramma di densità sull'istogramma sopra. Ciò offre ulteriori approfondimenti sulla distribuzione dei dati, l'asimmetria, la curtosi, ecc. Il seguente codice fa questo e l'output viene mostrato seguendo il codice.
Codice:
hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)
Produzione:
2. Grafico a dispersione
Questa trama è un tipo di grafico semplice, ma molto cruciale con un significato tremendo. Il grafico fornisce l'idea di una correlazione tra variabili ed è uno strumento utile in un'analisi esplorativa.
Il codice seguente genera un semplice grafico a dispersione. Abbiamo aggiunto una linea di tendenza ad esso, per capire la tendenza, i dati rappresentano.
Codice:
attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)
Produzione:
Il grafico creato dal seguente codice mostra che esiste una buona correlazione tra la circonferenza dell'albero e il volume dell'albero.
Codice:
plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)
Produzione:
Matrici a dispersione
R ci consente di confrontare più variabili alla volta perché utilizza matrici scatterplot. L'implementazione della visualizzazione è abbastanza semplice e può essere ottenuta usando la funzione Pair () come mostrato di seguito.
Codice:
pairs(trees, main = "Scatterplot matrix for trees dataset")
Produzione:
Scatterplot3d
Rendono possibile la visualizzazione in tre dimensioni che possono aiutare a comprendere la relazione tra più variabili. Pertanto, per rendere disponibili gli scatterplot in 3d, è necessario installare innanzitutto il pacchetto scatterplot3d. Quindi, il codice seguente genera un grafico 3d come mostrato sotto il codice.
Codice:
library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")
Produzione:
Possiamo aggiungere linee e colori che cadono, usando il codice qui sotto. Ora, possiamo convenientemente distinguere tra diverse variabili.
Codice:
scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")
Produzione:
3. Boxplot
Boxplot è un modo per visualizzare i dati attraverso box e baffi. Innanzitutto, i valori delle variabili sono ordinati in ordine crescente e quindi i dati sono divisi in quarti.
La casella nel grafico rappresenta il 50% medio dei dati, noto come IQR. La linea nera nella casella rappresenta la mediana.
Codice:
boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")
Produzione:
Una variante del diagramma a scatole, con tacche, è come mostrato di seguito.
Codice:
boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")
Produzione:
4. Grafico a linee
I grafici a linee sono utili quando si confrontano più variabili. Ci aiutano a stabilire relazioni tra più variabili in un singolo diagramma. Nell'illustrazione seguente, proveremo a comprendere la tendenza di tre funzioni dell'albero. Quindi, come mostrato nel codice seguente, inizialmente, e il grafico a linee per Girth viene tracciato usando la funzione plot (). Quindi i grafici a linee per altezza e volume vengono tracciati sullo stesso grafico usando la funzione lines ().
Il parametro "ylim" nella funzione plot () è stato, per accogliere correttamente tutti e tre i grafici a linee. La legenda è importante qui, poiché aiuta a capire quale linea rappresenta quale variabile. Nella legenda il parametro "lty = 1: 1" significa che abbiamo lo stesso tipo di linea per tutte le variabili e "cex" rappresenta la dimensione dei punti.
Codice:
plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)
Produzione:
5. Dot plot
Questo strumento di visualizzazione è utile se vogliamo confrontare più categorie con una certa misura. Per l'illustrazione seguente, è stato utilizzato il set di dati mtcars. La funzione dotchart () traccia lo spostamento per vari modelli di auto come di seguito.
Codice:
attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")
Produzione:
Quindi, ora classificheremo il set di dati in base ai valori di spostamento e quindi li plotteremo con ingranaggi diversi utilizzando la funzione dotchart ().
Codice:
m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")
Produzione:
Conclusione
L'analitica in senso lato viene sfruttata solo attraverso le visualizzazioni. R, come strumento statistico, offre forti capacità di visualizzazione. Quindi, le numerose opzioni associate ai grafici sono ciò che li rende speciali. Ciascuno dei grafici ha una propria applicazione e il grafico deve essere studiato prima di applicarlo a un problema.
Articoli consigliati
Questa è una guida ai grafici in R. Qui discutiamo l'introduzione e i tipi di grafici in R come istogramma, diagramma a dispersione, diagramma a scatole e molto altro insieme ad esempi e implementazione. Puoi anche consultare i seguenti articoli per saperne di più -
- R Tipi di dati
- Pacchetti R
- Introduzione a Matlab
- Grafici vs grafici