Analisi della varianza a una via

L'analisi della varianza scritta a breve come ANOVA è la procedura con cui possiamo confrontare i mezzi tra tre o più popolazioni. Statisticamente, inquadriamo due ipotesi, l'ipotesi nulla: "Tutti i mezzi della popolazione sono uguali" e l'ipotesi alternativa: "Non tutti i mezzi della popolazione sono uguali". Ci consente di testare l'uguaglianza di più mezzi in un test piuttosto che confrontare due mezzi alla volta che è impossibile quando ci sono più gruppi. In questo argomento, impareremo a conoscere ANOVA One Way in R.

L'analisi unidirezionale della varianza ci aiuta ad analizzare solo un fattore o una variabile. Ad esempio, esistono cinque regioni e vogliamo verificare se le precipitazioni medie giornaliere per tutte e cinque le regioni sono uguali o se sono diverse. In questo caso, c'è solo un fattore che è la regione, poiché dobbiamo verificare se i fattori regionali influenzano la ricezione delle precipitazioni e il modello.

Ipotesi di analisi della varianza

Di seguito sono riportati i presupposti che devono essere soddisfatti per l'applicazione dell'ANOVA a senso unico:

  • Le popolazioni da cui vengono prelevati i campioni sono normalmente distribuite.
  • Le popolazioni da cui vengono prelevati i campioni hanno la stessa varianza o deviazione standard.
  • I campioni prelevati da diverse popolazioni sono casuali e indipendenti.

Come funziona ANOVA a una via in R?

Per la nostra dimostrazione, stiamo usando i dati che contengono due variabili, vale a dire. Marchio e vendite. Esistono quattro marchi: ATB, JKV, MKL e PRQ. Vengono fornite vendite mensili per questi marchi. Dobbiamo verificare se le vendite medie tra i quattro marchi sono uguali o se sono diverse l'una dall'altra. Per verificarlo, utilizzeremo l'ANOVA a una via. La procedura dettagliata per implementare ANOVA è la seguente:

  1. Innanzitutto, importare i dati in R. I dati sono presenti in un formato CSV. Quindi, per importarlo, useremo la funzione read.csv ().

  1. Visualizza i primi record dei dati. Questo è importante per verificare se i dati sono stati correttamente importati in R. Allo stesso modo, applicheremo una funzione di riepilogo () sui dati, per ottenere informazioni di base sui dati.

  1. Ogni volta che utilizziamo le variabili presenti nel set di dati, dobbiamo menzionare esplicitamente il nome del set di dati come brand_sales_data $ Brand o brand_sales_data $ Sales. Per ovviare a questo, dovremo utilizzare la funzione attach. La funzione deve essere applicata come di seguito.

  1. Aggreghiamo le vendite per marchio usando la deviazione media o standard. L'aggregazione ci aiuta a farci un'idea di base dei dati.

Il risultato sopra mostra che i quattro diversi gruppi non sono uguali. JKV ha le vendite medie più alte.

Come si può vedere sopra, le deviazioni standard tra i quattro gruppi non mostrano alcuna differenza significativa ed è la più alta per il marchio MKL.

  1. Ora applicheremo ANOVA per convalidare se i mezzi tra le tre popolazioni sono uguali o se esiste qualche differenza.

Dai risultati precedenti possiamo vedere che il test ANOVA per Brand è significativo a causa di p <0, 0001. Possiamo interpretare che tutti i marchi non hanno gli stessi livelli di preferenza sul mercato, il che influenza la vendita di questi marchi sul mercato. Ciò potrebbe essere dovuto a molti fattori e alla simpatia delle persone per un determinato marchio.

  1. Il risultato sopra può essere visualizzato e semplifica l'interpretazione. Per questo, useremo la funzione plotmeans () nella libreria gplots (). Funziona come di seguito:

Come possiamo vedere sopra, la funzione plotmeans () nel pacchetto gplots ci consente di confrontare visivamente le medie di diversi gruppi. Possiamo vedere che i mezzi non sono gli stessi tra i quattro marchi. Tuttavia, i mezzi per i marchi MKL e PRQ rientrano nelle vicinanze.

  1. L'analisi di cui sopra ci aiuta a verificare se i marchi hanno gli stessi mezzi o meno, tuttavia, rendere difficile il confronto a coppie è con esso. Possiamo fare confronti a coppie per diversi marchi, usando la funzione TukeyHSD () che facilita il controllo se un marchio è significativamente diverso da uno dei rimanenti.

I confronti a coppie come sopra. La differenza tra due gruppi qualsiasi è significativa se p <0, 001. Come possiamo vedere sopra, il valore p per la coppia PRQ-MKL è molto più alto, il che indica che le due marche non sono significativamente diverse l'una dall'altra.

Per visualizzare i confronti a coppie, tracciamo i risultati sopra come di seguito:

La prima funzione par ruota le etichette degli assi rendendole orizzontali e la seconda istruzione par regola i margini in modo che le etichette si adattino correttamente, altrimenti andranno fuori dallo schermo.

Il grafico sopra offre una buona visione, ma possiamo tracciare i risultati sotto forma di diagramma a scatole per ottenere informazioni migliori per un'interpretazione più chiara, come dimostrato di seguito.

La funzione glht () usata sopra viene fornita con un set completo di metodi per confrontare più mezzi. Nota, l'opzione di livello nella funzione cld () si riferisce al livello di significatività, ad esempio confidenza 0, 05 o 95 percento)

Utilizzando la trama di cui sopra diventa facile confrontare i mezzi tra i gruppi e facilita anche l'interpretazione sistematica. Ci sono lettere, sopra la trama, per ogni marchio. Se due marchi hanno la stessa lettera, allora non hanno mezzi significativamente diversi rispetto ai marchi MKL e PRQ in questo caso che hanno la stessa lettera b.

  1. Fino ad ora, abbiamo implementato ANOVA e usato grafici per visualizzare i risultati. Tuttavia, è altrettanto importante testare le ipotesi. Innanzitutto, convalideremo il presupposto della normalità.

Il pacchetto auto in R fornisce la funzione qqPlot (). Il diagramma sopra mostra che i dati rientrano nel 95% dell'inviluppo di confidenza. Ciò indica che il presupposto della normalità è stato quasi soddisfatto.

Successivamente, verificheremo se le varianze tra i marchi sono uguali. Per questo, useremo il test di Bartlett

Il valore p mostra che le varianze nel gruppo non differiscono in modo significativo

Ultimo ma non meno importante, controlleremo se ci sono valori anomali che influenzano i risultati ANOVA.

Dal risultato precedente, possiamo vedere che non ci sono indicazioni di valori anomali nei dati (NA si verifica quando p> 1)

Prendendo in considerazione i risultati di QQ Plot, test di Bartlett e test Outlier, possiamo dire che i dati soddisfano tutti i presupposti ANOVA e che i risultati ottenuti sono validi.

Conclusione - ANOVA a una via in R

ANOVA è una tecnica statistica molto utile che può essere utilizzata per confrontare i mezzi tra più popolazioni. R offre una gamma completa di pacchetti per implementare ANOVA, ricavare risultati e validare i presupposti. In R, i risultati statistici possono essere interpretati in forme visive che offrono approfondimenti.

Articoli consigliati

Questa è una guida all'ANOVA a una via in R. Qui discutiamo del funzionamento dell'ANOVA a una via e delle ipotesi di analisi della varianza. Puoi anche dare un'occhiata ai seguenti articoli per saperne di più -

  1. R Linguaggio di programmazione
  2. Regressione vs ANOVA
  3. Come interpretare i risultati usando ANOVA Test
  4. GLM in R

Categoria: