Introduzione all'analisi della regressione lineare

Spesso è confuso apprendere alcuni concetti che fanno persino parte della nostra vita quotidiana. Ma questo non è un problema, possiamo aiutare e svilupparci per imparare dalle nostre attività quotidiane semplicemente analizzando le cose e non avere paura di porre domande. Perché il prezzo influisce sulla domanda di beni, perché la variazione del tasso di interesse influisce sull'offerta di moneta. A tutti questi si può rispondere con un semplice approccio noto come regressione lineare. L'unica complessità che si prova quando si ha a che fare con l'analisi della regressione lineare è l'identificazione di variabili dipendenti e indipendenti.

Dobbiamo trovare ciò che influenza cosa, e metà del problema è risolto. Dobbiamo vedere se è il prezzo o la domanda a influenzare l'altro comportamento. Una volta che abbiamo capito quale è la variabile indipendente e la variabile dipendente, siamo pronti per la nostra analisi. Sono disponibili più tipi di analisi di regressione. Questa analisi dipende dalle variabili a nostra disposizione.

I 3 tipi di analisi di regressione

Queste tre analisi di regressione hanno il massimo utilizzo nel mondo reale, altrimenti esistono più di 15 tipi di analisi di regressione. I tipi di analisi di regressione di cui discuteremo sono:

  1. Analisi di regressione lineare
  2. Analisi di regressione lineare multipla
  3. Regressione logistica

In questo articolo, ci concentreremo sull'analisi della regressione lineare semplice. Questa analisi ci aiuta a identificare la relazione tra il fattore indipendente e il fattore dipendente. In parole più semplici, il modello di regressione ci aiuta a scoprire come i cambiamenti nel fattore indipendente influenzano il fattore dipendente. Questo modello ci aiuta in diversi modi come:

  • È un modello statistico semplice e potente
  • Ci aiuterà a fare previsioni e previsioni
  • Ci aiuterà a prendere una migliore decisione aziendale
  • Ci aiuterà ad analizzare i risultati e correggere gli errori

L'equazione della regressione lineare e dividerla in parti pertinenti

Y = β1 + β2X + ϵ

  • Dove β1 nella terminologia matematica nota come intercetta e β2 nella terminologia matematica nota come pendenza. Sono anche noti come coefficienti di regressione. ϵ è il termine di errore, è la parte di Y che il modello di regressione non è in grado di spiegare.
  • Y è una variabile dipendente (altri termini utilizzati in modo intercambiabile per variabili dipendenti sono variabile di risposta, regresso e variabile misurata, variabile osservata, variabile di risposta, variabile spiegata, variabile di risultato, variabile sperimentale e / o variabile di output).
  • X è una variabile indipendente (regressori, variabile controllata, manipolata una variabile, variabile esplicativa, variabile di esposizione e / o variabile di input).

Problema: per comprendere cos'è l'analisi di regressione lineare, stiamo prendendo il set di dati "Auto" che viene fornito per impostazione predefinita nelle directory R. In questo set di dati, ci sono 50 osservazioni (sostanzialmente righe) e 2 variabili (colonne). I nomi delle colonne sono “Dist” e “Velocità”. Qui dobbiamo vedere l'impatto sulle variabili di distanza a causa del cambiamento delle variabili di velocità. Per vedere la struttura dei dati possiamo eseguire un codice Str (set di dati). Questo codice ci aiuta a comprendere la struttura del set di dati. Queste funzionalità ci aiutano a prendere decisioni migliori perché abbiamo in mente un'immagine migliore della struttura del set di dati. Questo codice ci aiuta a identificare il tipo di set di dati.

Codice:

Allo stesso modo per controllare i punti di controllo delle statistiche del set di dati possiamo usare il Riepilogo del codice (auto). Questo codice fornisce una gamma media, mediana, dell'insieme di dati in una volta, che il ricercatore può utilizzare mentre si occupa del problema.

Produzione:

Qui possiamo vedere l'output statistico di ogni variabile che abbiamo nel nostro set di dati.

La rappresentazione grafica dei set di dati

I tipi di rappresentazione grafica che tratteranno qui sono e perché:

  • Grafico a dispersione: con l'aiuto del grafico, possiamo vedere in quale direzione sta andando il nostro modello di regressione lineare, se ci sono prove forti per provare o meno il nostro modello.
  • Box Plot: ci aiuta a trovare valori anomali.
  • Grafico della densità: aiutaci a comprendere la distribuzione della variabile indipendente, nel nostro caso, la variabile indipendente è "Velocità".

Vantaggi della rappresentazione grafica

Qui i seguenti vantaggi sono i seguenti:

  • Facile da capire
  • Ci aiuta a prendere decisioni rapide
  • Analisi comparativa
  • Meno sforzo e tempo

1. Grafico a dispersione: aiuterà a visualizzare qualsiasi relazione tra la variabile indipendente e la variabile dipendente.

Codice:

Produzione:

Possiamo vedere dal grafico una relazione che aumenta linearmente tra la variabile dipendente (Distanza) e la variabile indipendente (Velocità).

2. Grafico a scatole: il diagramma a scatole ci aiuta a identificare i valori anomali nei set di dati. I vantaggi dell'utilizzo di un diagramma a scatole sono:

  • Visualizzazione grafica della posizione e della diffusione delle variabili.
  • Ci aiuta a capire l'asimmetria e la simmetria dei dati.

Codice:

Produzione:

3. Grafico della densità (per verificare la normalità della distribuzione)

Codice:

Produzione:

Analisi di correlazione

Questa analisi ci aiuta a trovare la relazione tra le variabili. Esistono principalmente sei tipi di analisi di correlazione.

  1. Correlazione positiva (da 0, 01 a 0, 99)
  2. Correlazione negativa (da -0, 99 a -0, 01)
  3. Nessuna correlazione
  4. Correlazione perfetta
  5. Correlazione forte (un valore più vicino a ± 0, 99)
  6. Correlazione debole (un valore più vicino a 0)

Il diagramma a dispersione ci aiuta a identificare quali tipi di set di dati di correlazione hanno tra loro e il codice per trovare la correlazione è

Produzione:

Qui abbiamo una forte correlazione positiva tra velocità e distanza, il che significa che hanno una relazione diretta tra loro.

Modello di regressione lineare

Questo è il componente principale dell'analisi, in precedenza stavamo solo provando e testando le cose se il set di dati che abbiamo è abbastanza logico per eseguire tale analisi o meno. La funzione che stiamo pianificando di usare è lm (). Questa funzione contiene due elementi che sono Formula e Dati. Prima di assegnare quella quale variabile è dipendente o indipendente dobbiamo esserne molto sicuri perché tutta la nostra formula dipende da quello.

La formula è simile a questa,

Regressione lineare <- lm (Variabile dipendente ~ Variabile indipendente, data = Data.Frame)

Codice:

Produzione:

Come possiamo ricordare dal precedente segmento dell'articolo, l'equazione della regressione lineare è:

Y = β1 + β2X + ϵ

Ora inseriremo le informazioni ottenute dal codice sopra in questa equazione.

dist = −17.579 + 3.932 ∗ velocità

Solo trovare l'equazione della regressione lineare non è sufficiente, dobbiamo anche verificare la sua statistica significativa. Per questo, dobbiamo passare un codice "Riepilogo" sul nostro modello di regressione lineare.

Codice:

Produzione:

Esistono diversi modi per verificare la statistica significativa di un modello, qui stiamo usando il metodo del valore P. Possiamo considerare un modello statisticamente idoneo quando il valore P è inferiore al livello significativo statistico predeterminato, che è idealmente 0, 05. Possiamo vedere nella nostra tabella di riepilogo (linear_regression) che il valore P è inferiore al livello 0, 05, quindi possiamo concludere che il nostro modello è statisticamente significativo. Una volta che siamo sicuri del nostro modello, possiamo usare il nostro set di dati per prevedere le cose.

Articoli consigliati

Questa è una guida per l'analisi della regressione lineare. Qui discutiamo i tre tipi di analisi di regressione lineare, la rappresentazione grafica dei set di dati con vantaggi e modelli di regressione lineare. Puoi anche consultare i nostri altri articoli correlati per saperne di più-

  1. Formula di regressione
  2. Test di regressione
  3. Regressione lineare in R
  4. Tipi di tecniche di analisi dei dati
  5. Che cos'è l'analisi di regressione?
  6. Principali differenze di regressione rispetto alla classificazione
  7. Le 6 principali differenze tra regressione lineare e regressione logistica

Categoria: