Introduzione all'algoritmo dell'albero delle decisioni

Quando abbiamo un problema da risolvere, che è un problema di classificazione o di regressione, l'algoritmo dell'albero decisionale è uno degli algoritmi più popolari utilizzati per costruire i modelli di classificazione e regressione. Esse rientrano nella categoria dell'apprendimento supervisionato, ovvero i dati che sono etichettati.

Che cos'è l'algoritmo dell'albero delle decisioni?

L'algoritmo dell'albero delle decisioni è un algoritmo di apprendimento automatico supervisionato in cui i dati vengono continuamente divisi in ciascuna riga in base a determinate regole fino a quando non viene generato il risultato finale. Facciamo un esempio, supponiamo che tu apra un centro commerciale e, naturalmente, vorrai che cresca nel tempo con gli affari. Quindi, del resto, avresti bisogno di clienti di ritorno più nuovi clienti nel tuo centro commerciale. Per questo, prepareresti diverse strategie commerciali e di marketing come l'invio di e-mail a potenziali clienti; creare offerte e offerte, rivolgendosi a nuovi clienti, ecc. Ma come facciamo a sapere chi sono i potenziali clienti? In altre parole, come classifichiamo la categoria dei clienti? Come alcuni clienti visiteranno una volta alla settimana e altri vorrebbero visitare una o due volte al mese o alcuni visiteranno tra un quarto. Quindi gli alberi decisionali sono uno di questi algoritmi di classificazione che classificherà i risultati in gruppi fino a quando non rimarrà più alcuna somiglianza.

In questo modo, l'albero decisionale scende in un formato strutturato ad albero. I componenti principali di un albero decisionale sono:

  • Nodi decisionali, che è dove i dati sono divisi o dicono, è un posto per l'attributo.
  • Collegamento decisionale, che rappresenta una regola.
  • Decisioni, che sono i risultati finali.

Elaborazione di un algoritmo dell'albero delle decisioni

Esistono molti passaggi coinvolti nel funzionamento di un albero decisionale:

1. Suddivisione : è il processo di partizionamento dei dati in sottoinsiemi. La suddivisione può essere effettuata su vari fattori, come mostrato di seguito, ad esempio in base al genere, all'altezza o in base alla classe.

2. Potatura - È il processo di accorciamento dei rami dell'albero decisionale, limitando quindi la profondità dell'albero

Anche la potatura è di due tipi:

  • Pre-potatura - Qui smettiamo di far crescere l'albero quando non troviamo alcuna associazione statisticamente significativa tra gli attributi e la classe in un particolare nodo.
  • Post-potatura : per postare la potatura, è necessario convalidare le prestazioni del modello del set di test e quindi tagliare i rami che sono il risultato di un rumore eccessivo del set di allenamento.

3. Selezione dell'albero : il terzo passo è il processo di ricerca dell'albero più piccolo adatto ai dati.

Esempi e illustrazioni sulla costruzione di un albero decisionale

Ora, come abbiamo appreso i principi di un albero decisionale. Comprendiamo e illustriamo questo con l'aiuto di un esempio.

Supponiamo che tu voglia giocare a cricket in un giorno particolare (ad esempio, sabato). Quali sono i fattori coinvolti che decideranno se il gioco accadrà o no?

Chiaramente, il fattore principale è il clima, nessun altro fattore ha tanta probabilità quanto il clima che si sta verificando per l'interruzione del gioco.

Abbiamo raccolto i dati degli ultimi 10 giorni che sono presentati di seguito:

GiornoTempo metereologicoTemperaturaUmiditàVentoGiocare?
1NuvolosoCaldoaltoDebole
2soleggiatoCaldoaltoDeboleNo
3soleggiatoMiteNormaleForte
4PiovosoMitealtoForteNo
5NuvolosoMitealtoForte
6PiovosoFreddoNormaleForteNo
7PiovosoMitealtoDebole
8soleggiatoCaldoaltoForteNo
9NuvolosoCaldoNormaleDebole
10PiovosoMitealtoForteNo

Costruiamo ora il nostro albero decisionale sulla base dei dati che abbiamo. Quindi abbiamo diviso l'albero decisionale in due livelli, il primo si basa sull'attributo "Meteo" e la seconda riga si basa su "Umidità" e "Vento". Le immagini seguenti mostrano un albero decisionale appreso.

Possiamo anche impostare alcuni valori di soglia se le funzionalità sono continue.

Che cos'è l'entropia nell'algoritmo dell'albero delle decisioni?

In parole semplici, l'entropia è la misura di quanto siano disordinati i tuoi dati. Anche se potresti aver sentito questo termine nelle tue lezioni di Matematica o Fisica, qui è lo stesso.

Il motivo per cui Entropy viene utilizzato nell'albero decisionale è perché l'obiettivo finale nell'albero decisionale è raggruppare gruppi di dati simili in classi simili, ovvero mettere in ordine i dati.

Vediamo l'immagine qui sotto, in cui abbiamo il set di dati iniziale e siamo tenuti ad applicare l'algoritmo dell'albero decisionale al fine di raggruppare i punti di dati simili in una categoria.

Dopo la divisione della decisione, come possiamo vedere chiaramente, la maggior parte dei cerchi rossi rientrano in una classe mentre la maggior parte delle croci blu rientrano in un'altra classe. Quindi una decisione era quella di classificare gli attributi che potevano essere basati su vari fattori.

Ora proviamo a fare un po 'di matematica qui:

Supponiamo di avere insiemi di "N" dell'articolo e questi elementi rientrano in due categorie e ora per raggruppare i dati in base alle etichette, introduciamo il rapporto:

L'entropia del nostro set è data dalla seguente equazione:

Vediamo il grafico per l'equazione data:

Sopra l'immagine (con p = 0, 5 e q = 0, 5)

vantaggi

1. Un albero decisionale è semplice da capire e una volta compreso, possiamo costruirlo.

2. Possiamo implementare un albero decisionale su dati numerici e categorici.

3. L'albero decisionale ha dimostrato di essere un modello solido con risultati promettenti.

4. Sono inoltre efficienti in termini di tempo con dati di grandi dimensioni.

5. Richiede meno sforzi per la formazione dei dati.

svantaggi

1. Instabilità - Solo se le informazioni sono precise e accurate, l'albero decisionale produrrà risultati promettenti. Anche se c'è una leggera modifica nei dati di input, può causare grandi cambiamenti nella struttura.

2. Complessità : se il set di dati è enorme con molte colonne e righe, è un compito molto complesso progettare un albero decisionale con molti rami.

3. Costi - A volte anche il costo rimane un fattore principale perché quando è necessario costruire un albero decisionale complesso, richiede conoscenze avanzate nell'analisi quantitativa e statistica.

Conclusione

In questo articolo, abbiamo appreso l'algoritmo dell'albero decisionale e come costruirne uno. Abbiamo anche visto il grande ruolo svolto da Entropy nell'algoritmo dell'albero decisionale e, infine, abbiamo visto i vantaggi e gli svantaggi dell'albero decisionale.

Articoli consigliati

Questa è stata una guida all'algoritmo dell'albero delle decisioni. Qui abbiamo discusso il ruolo svolto da Entropia, Funzionamento, Vantaggi e Svantaggio. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -

  1. Metodi di data mining importanti
  2. Che cos'è l'applicazione Web?
  3. Guida a Che cos'è la scienza dei dati?
  4. Domande di intervista per analisti di dati
  5. Applicazione dell'albero decisionale nel data mining

Categoria: