Introduzione all'analisi di regressione
L'analisi di regressione è un algoritmo di modellazione predittiva per prevedere il risultato di una variabile e identificare le variabili (variabili indipendenti) che contribuiscono o dipendono dalla variabile di risultato (variabile target o dipendente). In termini semplici, è una tecnica per trovare la relazione tra le variabili indipendenti e dipendenti per produrre il risultato. È semplice da usare e interpretare il risultato. Esistono molti tipi di tecniche di regressione ampiamente utilizzate in vari settori. Alcuni degli esempi di regressione sono la previsione dello stipendio di un dipendente o delle entrate di un'azienda in un anno.
Come ha funzionato l'analisi di regressione?
Esistono molti tipi di tecniche di regressione che vengono utilizzate considerando diversi fattori e risultati.
- Regressione lineare
- Regressione logistica
- Regressione Lazo / Cresta
- Regressione polinomiale
Di seguito sono riportati alcuni degli importanti test di regressione statistica utilizzati in vari settori:
1. Regressione lineare
Viene utilizzato quando la variabile di risultato dipende linearmente dalle variabili indipendenti. Viene normalmente utilizzato quando non disponiamo di un enorme set di dati. È anche sensibile ai valori anomali, quindi se il set di dati contiene valori anomali, è meglio trattarli prima di applicare la regressione lineare. Esistono tecniche di regressione singola e multi-variabile. La regressione lineare semplice è l'analisi quando la variabile di risultato dipende linearmente da una singola variabile indipendente. La regressione lineare semplice segue l'equazione di una linea retta che viene fornita di seguito:
Y=mx+c
Dove,
Y = Variabile target, dipendente o criterio
x = Variabile indipendente o predittore
m = pendenza o coefficiente di regressione
c = costante
La regressione lineare multi-variabile definisce la relazione tra la variabile di risultato e più di una variabile indipendente. Segue l'equazione seguente di una linea retta in cui le variabili dipendenti sono la combinazione lineare di tutte le variabili indipendenti:
Y= m1x1+m2x2+m3x3+…mnan+c
Dove,
Y = Variabile target, dipendente o criterio
x1, x2, x3… xn = Variabili indipendenti o predittive
m1, m2, m3… mn = coefficienti di pendenza o di regressione delle rispettive variabili
c = costante
La regressione lineare segue il principio del metodo del minimo quadrato. Questo metodo afferma che viene scelta una linea di adattamento minimizzando la somma dell'errore quadrato. Viene scelta la linea di migliore adattamento in cui la somma dell'errore quadrato tra i dati osservati e la linea è minima.
Ci sono alcune ipotesi che dovrebbero essere prese in considerazione prima di applicare la regressione lineare sul set di dati.
- Dovrebbe esserci una relazione lineare tra variabili indipendenti e dipendenti.
- Non ci dovrebbe essere o una piccola multicollinearità tra le variabili indipendenti. La multicollinearità è definita come un fenomeno in cui esiste un'alta correlazione tra le variabili indipendenti. Possiamo trattare la multicollinearità rilasciando una variabile che è correlata o tratta due variabili come una variabile.
- Omoscedasticità: è definito come uno stato in cui i termini di errore dovrebbero essere distribuiti casualmente su tutta la linea nell'analisi di regressione. Non dovrebbe esserci alcun motivo attraverso la linea se esiste un motivo identificato di quanto si dice che i dati siano eteroscedastici.
- Tutte le variabili dovrebbero essere normalmente distribuite, cosa che vediamo tracciando un diagramma QQ. Se i dati non vengono normalmente distribuiti, possiamo utilizzare qualsiasi metodo di trasformazione non lineare per trattarli.
Pertanto, è sempre consigliabile testare le ipotesi mentre si applica la regressione lineare per ottenere una buona precisione e risultati corretti.
2. Regressione logistica
Questa tecnica di regressione viene utilizzata quando la variabile target o outcome è di natura categoriale o binaria. La differenza principale tra regressione lineare e logistica risiede nella variabile target, nella regressione lineare, dovrebbe essere continua mentre nella logistica dovrebbe essere categorica. La variabile di risultato dovrebbe avere solo due classi, non di più. Alcuni esempi sono i filtri antispam nelle e-mail (spam o meno), il rilevamento delle frodi (frode / non frode), ecc. Funziona secondo il principio di probabilità. Può essere classificato in due categorie impostando il valore di soglia.
Ad esempio: se ci sono due categorie A, B e impostiamo il valore di soglia su 0, 5, la probabilità superiore a 0, 5 verrà considerata come una categoria e inferiore a 0, 5 sarà un'altra categoria. La regressione logistica segue una curva a forma di S. Prima di creare il modello di regressione logistica, dobbiamo suddividere il set di dati in formazione e test. Poiché la variabile target è categoriale o binaria, dobbiamo assicurarci che ci sia un corretto equilibrio di classe nel set di addestramento. Se esiste uno squilibrio di classe, questo può essere trattato usando vari metodi come indicato di seguito:
- Campionamento: in questa tecnica, la classe che ha meno righe viene campionata per corrispondere al numero di righe della classe maggioritaria.
- Campionamento verso il basso: in questa tecnica, la classe che ha più righe viene campionata per abbinare il numero di righe della classe di minoranza.
Esistono alcuni punti importanti che sono importanti da comprendere prima di applicare il modello di regressione logistica ai set di dati:
- La variabile target dovrebbe essere di natura binaria. Se ci sono più di 2 classi nella variabile target di quella che è nota come regressione logistica multinomiale .
- Non ci dovrebbe essere nessuna o poca multicollinearità tra le variabili indipendenti.
- Richiede un'enorme dimensione del campione per funzionare.
- Dovrebbe esserci una relazione lineare tra le variabili indipendenti e il registro delle probabilità.
Vantaggi della regressione
Ci sono molti vantaggi dell'analisi di regressione. Invece di considerare il nostro intestino e prevedere il risultato, possiamo usare l'analisi di regressione e mostrare punti validi per possibili esiti.
Alcuni di questi sono elencati di seguito:
- Per prevedere le vendite e le entrate in qualsiasi settore per periodi più o meno lunghi.
- Prevedere il tasso di abbandono dei clienti di qualsiasi settore e scoprire le misure adeguate per ridurli.
- Comprendere e prevedere i livelli di inventario del magazzino.
- Per scoprire se l'introduzione di un nuovo prodotto sul mercato avrà successo o meno.
- Per prevedere se un cliente sarà inadempiente o meno.
- Per prevedere se un cliente acquisterà o meno un prodotto.
- Rilevazione di frodi o spam
Conclusione
Esistono varie metriche di valutazione che vengono prese in considerazione dopo l'applicazione del modello. Sebbene ci siano presupposti che devono essere testati prima di applicare il modello, possiamo sempre modificare le variabili usando vari metodi matematici e aumentare le prestazioni del modello.
Articoli consigliati
Questa è una guida per l'analisi di regressione. Qui discutiamo l'introduzione all'analisi della regressione, come ha funzionato l'analisi della regressione e i vantaggi della regressione. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più–
- Analisi di regressione lineare
- Strumenti di analisi dei dati
- Strumenti di test di regressione
- Big Data Analytics
- Regressione vs classificazione | Principali differenze chiave