Introduzione a Scatterplot in R

  • R è un linguaggio di programmazione open source utilizzato per la statistica e l'analisi dei dati. Con la crescente popolarità della scienza dei dati, anche R ha guadagnato popolarità. È utilizzato principalmente da statistici e minatori di dati per estrarre informazioni preziose dai dati. R è un linguaggio interpretato e ha un'interfaccia a riga di comando ma sono disponibili molte interfacce grafiche per facilitare i lavori degli sviluppatori. R offre una grande varietà di librerie per l'implementazione di statistiche e tecniche grafiche. R offre grafica statica; consente all'utente di creare un grafico a strati. Pertanto, produce grafici di qualità di pubblicazione e fornisce una migliore rappresentazione delle informazioni.
  • R offre una vasta gamma di librerie per l'implementazione grafica, ma la più popolare è "ggplot2". GGPlot2 un'implementazione di "Grammatica della grafica" che semplifica la creazione di grafici complessi. Fornisce un'interfaccia programmatica per specificare le variabili, la loro posizione, il colore del grafico, i tipi di grafico e altre proprietà di visualizzazione. Ti consente di creare grafici passo dopo passo, permettendoti di creare livelli per una maggiore flessibilità e qualità di pubblicazione.
  • Uno di questi tipi di grafico è Scatterplot in R. Scatterplot in R, chiamato anche grafico a dispersione, che è un tipo di grafico che mostra la correlazione tra due variabili. Mostra i punti dati sotto forma di punti. Può essere disegnato tra una variabile indipendente continua e un'altra variabile che dipende dalla variabile precedente o da due variabili indipendenti continue. La correlazione può essere positiva, negativa o nulla. Se la pendenza del grafico va da in basso a sinistra a in alto a destra, la correlazione è positiva. Se la pendenza va da in alto a sinistra a in basso a destra, la correlazione è negativa o in altre parole l'aumento del valore di una variabile diminuirà del valore di un'altra variabile.

Sintassi: ci sono molti pacchetti in R per i grafici, quindi ci sono molte funzioni per creare uno Scatterplot in R. La funzione più semplice e di base è

trama (x, y)

dove

x indica l'asse orizzontale o la variabile continua indipendente.

y indica l'asse verticale o la variabile dipendente.

Ci sono molti altri parametri per tracciare la funzione per rendere il grafico facile da capire.

Di seguito sono riportati alcuni con una definizione:

  • main: aggiunge un titolo al grafico
  • xlab: aggiungi un'etichetta all'asse x
  • ylab: aggiunge un'etichetta all'asse y
  • xlim: specifica l'intervallo dell'asse x
  • ylim: specifica l'intervallo dell'asse y
  • pch: indica la forma dei punti nel grafico a dispersione
  • cex: indica la dimensione dei punti
  • col: definisce il colore dei punti

Uno Scatterplot in R può essere creato anche usando il pacchetto ggplot2. Per questo, dobbiamo prima installare e caricare il pacchetto ggplot2. Dopo aver aggiunto il pacchetto alla sessione corrente di seguito, è possibile utilizzare il comando per creare uno Scatterplot in R.

ggplot (set di dati, aes (x, y, color, shape)) + geom_poin () + lab (x, y, title)

dove

  • il set di dati è il set di dati per cui è necessario creare il diagramma a dispersione.
  • aes () è la mappatura estetica in un grafico. Descrive come le variabili sono mappate sul grafico.
  • x è l'asse orizzontale o la variabile continua indipendente.
  • y è l'asse verticale o la variabile dipendente.
  • il colore è aggiungere colore ai punti in base alla variabile di raggruppamento.
  • la forma viene utilizzata per impostare la forma in base alla variabile di raggruppamento.
  • Il segno + indica che il comando continua.
  • geom_point () è la funzione per il grafico a dispersione.
  • laboratori (x, y, titolo): aggiungi un'etichetta x, un'etichetta y e un titolo al grafico.

Crea diagramma a dispersione in R

Per creare uno Scatterplot in R, dobbiamo prima caricare il set di dati. Qui stiamo usando il set di dati (mtcar) fornito da R. Prima carica il set di dati nella sessione corrente usando il comando seguente

dati (iris)

Una volta caricato il set di dati, visualizzare i dati per ottenere una comprensione di base del tipo di dati e colonne in esso utilizzando il comando seguente.

iris

Dopo aver acquisito una conoscenza di base dei dati, consente di creare un semplice diagramma a dispersione utilizzando la funzione trama

trama (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 5.0))

Aggiunta di etichette per rendere leggibile il grafico

grafico (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = "Sepal Length", ylab = "Sepal Width", main = "Width vs Lunghezza ")

Aggiunta di qualche parametro in più per rendere il grafico più attraente

grafico (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = "Sepal Length", ylab = "Sepal Width", main = "Width vs Lunghezza ", pch = 8, cex = 1.5, col = 6)

Oltre a questi grafici 2D, è possibile creare anche grafici a matrice e grafici 3D in R.

Matrici a dispersione

Quando abbiamo più di due variabili in un set di dati e vogliamo trovare una correlazione di ciascuna variabile con tutte le altre variabili, viene utilizzata la matrice scatterplot. Il comando più semplice e di base per la matrice scatterplot è:

coppie (~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data = iris, main = "Scatterplot Matrix")

Il grafico sopra mostra la correlazione tra peso, mpg, dsp e cil.

Scatterplot 3D

A volte un grafico tridimensionale offre una migliore comprensione dei dati. Per questo R fornisce più pacchetti, uno di questi è "scatterplot3d". Di seguito sono riportati i comandi per installare "scatterplot3d" nell'area di lavoro R e caricarlo nella sessione corrente

install.packages ( “scatterplot3d”)

biblioteca (scatterplot3d)

Dopo aver caricato la libreria, l'esecuzione dei comandi seguenti creerà un grafico a dispersione 3D.

allegare (iris)

scatterplot3d (Sepal.Length, Sepal.Width, Petal.Length, main = "3D Scatterplot")

Oltre a questo, ci sono molti altri modi per creare un tridimensionale. Gli utenti possono anche aggiungere dettagli come colore, titoli per migliorare il grafico. L'utente può anche creare grafici a dispersione 3D interattivi utilizzando la funzione "plot3D (x, y, z)" fornita dal pacchetto "rgl". Questa funzione crea un grafico a dispersione 3D rotante che può essere ruotato con il mouse. Pertanto, dando una visione completa della correlazione tra le variabili.

Conclusione

R è uno dei linguaggi più famosi per l'implementazione di tecniche grafiche utilizzate dai data scientist. Fornisce una vasta gamma di pacchetti e librerie per la grafica e una migliore comprensione dei dati. "Gglpot2", "ggvis", "rgl", "plot3d", "reticolo", "animazione", "gganimate", "cairo" sono alcuni dei pacchetti forniti da R.

Un diagramma a dispersione è il modo più semplice per comprendere meglio i dati. Usando questa visualizzazione l'utente può sapere come le variabili sono correlate tra loro, come cambiare il valore di una variabile cambierà il valore di altre variabili ecc. La pendenza del grafico racconta la relazione positiva e negativa tra le variabili.

Articoli consigliati

Questa è una guida a Scatterplot in R. Qui discutiamo un'introduzione, matrici scatterplot, scatterplot 3D, come creare scatterplot? insieme ad esempi appropriati. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -

  1. Cos'è GraphQL
  2. Scrum Framework
  3. R Domande di intervista
  4. Introduzione alla distribuzione binomiale in R

Categoria: