Regressione vs classificazione - Differenze chiave e confronto principali

Differenza tra regressione e classificazione

In questo articolo Regressione vs classificazione, discutiamo le differenze chiave tra regressione e classificazione. L'apprendimento automatico è ampiamente suddiviso in due tipi: apprendimento automatico supervisionato e apprendimento automatico non supervisionato. Nell'apprendimento automatico supervisionato, abbiamo un valore di output noto nel set di dati e formiamo il modello basato su questi e lo usiamo per la previsione, mentre nell'apprendimento automatico non supervisionato non abbiamo un set noto di valori di output. In anticipo per differenziare tra classificazione e regressione, cerchiamo di capire cosa significa questa terminologia nell'apprendimento automatico. La regressione è un algoritmo nell'apprendimento automatico supervisionato che può essere addestrato per prevedere output di numeri reali. La classificazione è un algoritmo nell'apprendimento automatico supervisionato che viene addestrato per identificare le categorie e prevedere in quale categoria rientrano per i nuovi valori.

Confronto testa a testa tra regressione e classificazione (infografica)

Di seguito è riportato il Top 5 confronto tra regressione e classificazione :

Differenze chiave tra regressione e classificazione

Discutiamo alcune differenze chiave tra regressione e classificazione nei seguenti punti:

La classificazione consiste nel prevedere un'etichetta o una categoria. L'algoritmo di classificazione classifica il set di dati richiesto in una di due o più etichette, un algoritmo che si occupa di due classi o categorie è noto come classificatore binario e se ci sono più di due classi, può essere chiamato come algoritmo di classificazione multi-classe.
La regressione consiste nel trovare una funzione ottimale per identificare i dati di valori reali continui e fare previsioni di tale quantità. La regressione con più variabili come input o funzionalità per addestrare l'algoritmo è nota come problema di regressione multivariata. Se nel problema di regressione, i valori di input sono dipendenti o ordinati per tempo, allora è noto come problema di previsione delle serie temporali.
Tuttavia, il modello di classificazione prevede anche un valore continuo che è la probabilità che si verifichi l'evento che appartiene a quella rispettiva classe di output. Qui la probabilità dell'evento rappresenta la probabilità di un dato esempio appartenente a una classe specifica. Il valore di probabilità previsto può essere convertito in un valore di classe selezionando l'etichetta della classe con la probabilità più alta.
Cerchiamo di capirlo meglio vedendo un esempio, supponiamo che stiamo addestrando il modello per prevedere se una persona ha il cancro o no sulla base di alcune caratteristiche. Se otteniamo la probabilità che una persona abbia il cancro come 0, 8 e non abbia il cancro come 0, 2, possiamo convertire la probabilità 0, 8 in un'etichetta di classe che ha il cancro in quanto ha la più alta probabilità.
Come accennato in precedenza nella classificazione per vedere quanto è buono il modello di classificazione, calcoliamo la precisione. Vediamo come viene eseguito il calcolo, l'accuratezza nella classificazione può essere eseguita prendendo il rapporto tra previsioni corrette e previsioni totali moltiplicate per 100. Se ci sono 50 previsioni fatte e 10 di esse sono corrette e 40 sono errate, l'accuratezza sarà 20 %.

Precisione = (Numero di previsioni corrette / Numero totale di previsioni) * (100)

Precisione = (10/50) * (100)
Precisione = 20%

Come accennato in precedenza nella regressione, per vedere quanto è efficace il modello di regressione nel modo più popolare è calcolare l'errore quadratico medio radice (RMSE). Vediamo come verrà eseguito il calcolo.

Il valore previsto del modello di regressione è 4, 9 mentre il valore effettivo è 5, 3.

Il valore previsto del modello di regressione è 2.3, mentre il valore effettivo è 2.1.

Il valore previsto del modello di regressione è 3, 4, mentre il valore effettivo è 2, 9.

Ora, Root significa che l'errore quadrato può essere calcolato usando la formula.

L'errore al quadrato è (5, 3-4, 9) 2 = 0, 16, (2, 1-2, 3) 2 = 0, 04, (2, 9-3, 4) 2 = 0, 25

Media dell'errore al quadrato = 0, 45 / 3 = 0, 15

Errore quadratico medio radice = radice quadrata di 0, 15 = 0, 38

Questo è RMSE = 0, 38. Esistono molti altri metodi per calcolare l'efficienza del modello, ma RMSE è il più utilizzato perché RMSE offre il punteggio di errore nelle stesse unità del valore previsto.

Esempi:

La maggior parte degli ingegneri di data scientist ha difficoltà a sceglierne uno tra regressione e classificazione nella fase iniziale della loro carriera. Per semplificare, vediamo come appaiono i problemi di classificazione e come appaiono i problemi di regressione,

Classificazione

Prevedere se pioverà o no domani.
Prevedere una persona dovrebbe comprare quel bene o non fare un profitto.
Prevedere se una persona ha una malattia o no.

Se noti per ogni situazione qui, può esserci un Sì o No come valore previsto per l'output.

Regressione

Prevedere il prezzo del terreno.
Prevedere il prezzo delle azioni.

Se noti per ciascuna situazione qui la maggior parte di essi ha un valore numerico come output previsto.

Tabella comparativa di regressione vs classificazione

La tabella seguente riassume i confronti tra regressione e classificazione :

Parametro	Regressione	Classificazione
Tipo di funzione di mappatura	In questi algoritmi, verrà scelta la funzione di mappatura di tipo in grado di allineare i valori all'uscita continua.	In questi algoritmi, verrà scelta la funzione di mappatura di tipo in grado di allineare i valori alle classi predefinite.
Coinvolge la previsione	Per questo tipo di algoritmi, i dati previsti appartengono alla categoria dei valori continui. (Mi piace 23, 34, 45, 67, 28)	Per questo tipo di dati previsti dall'algoritmo, appartiene alla categoria di valori discreti. (Come Sì o No, appartiene ad A o B o C).
Metodo di calcolo	L'errore quadratico medio di radice verrà calcolato per identificare l'adattamento migliore del set di dati.	La precisione verrà calcolata per identificare la migliore corrispondenza del set di dati.
Natura dei dati previsti	Viene ordinata la natura dei dati previsti. (Cioè i valori previsti saranno in una certa sequenza).	La natura dei dati previsti non è ordinata. (Cioè i valori previsti non saranno in nessuna sequenza).
algoritmi	Supporta gli alberi di regressione e regressione vettoriale sono anche noti come foresta casuale, che sono alcuni dei più popolari esempi di algoritmi di regressione.	Naive Bayes, alberi decisionali e K Neighbours più vicini sono alcuni degli esempi popolari di algoritmi di classificazione.

Conclusione

Queste sono alcune delle principali differenze tra classificazione e regressione. In alcuni casi, i valori di output continui previsti nella regressione possono essere raggruppati in etichette e trasformati in modelli di classificazione. Quindi, dobbiamo capire chiaramente quale scegliere in base alla situazione e quale vogliamo che sia il risultato previsto.

Articoli consigliati

Questa è una guida alla differenza principale tra regressione e classificazione. Qui discutiamo anche le differenze chiave tra regressione e classificazione con infografica e tabella comparativa. Puoi anche dare un'occhiata ai seguenti articoli per saperne di più -