Introduzione alla creazione di un albero decisionale
Con la recente rapida crescita della quantità di dati generati dai sistemi di informazione, per gestire grandi serie di dati, è necessario che l'albero decisionale riduca la complessità del calcolo. Un albero decisionale può essere considerato l'approccio più importante per rappresentare i classificatori. In altre parole, possiamo dire che i dati sono strutturati usando una strategia di divisione e conquista. per sapere che abbiamo solo esplorato. Un albero decisionale è strutturato come un quadro per l'accuratezza dei valori e della probabilità delle decisioni sui risultati
m ogni livello del nodo, aiutando i decisori a scegliere le previsioni corrette tra i vari dati inappropriati. In questo articolo, spiegherai in modo semplice come creare un albero decisionale basato su dati di esempio.
Che cos'è l'albero decisionale?
Un albero decisionale è una struttura gerarchica binaria che identifica il modo in cui ciascun nodo suddivide un set di dati in base a condizioni diverse. Costruire un albero ottimale con un approccio modello per classificare una variabile di risposta che prevede il valore di una variabile di destinazione con semplici regole di decisione (istruzioni if-then-else). L'approccio è l'apprendimento supervisionato utilizzato principalmente nei problemi di classificazione e considerato un modello predittivo molto efficace. Sono utilizzati in diversi domini applicativi come la teoria dei giochi, l'intelligenza artificiale, l'apprendimento automatico, l'estrazione dei dati e settori come la sicurezza e la medicina.
Come creare un albero decisionale?
Un albero decisionale viene creato in modo semplice con il metodo dall'alto verso il basso; sono costituiti da nodi che formano un nodo diretto che ha nodi radice senza bordi in entrata tutti gli altri nodi sono chiamati nodi-decisione (nodo interno e nodi foglia che corrispondono alle etichette degli attributi e delle classi) con almeno un bordo in entrata. L'obiettivo principale dei set di dati è ridurre al minimo gli errori di generalizzazione trovando la soluzione ottimale nella struttura decisionale.
Un esempio di un albero decisionale è spiegato di seguito con un set di dati di esempio. L'obiettivo è prevedere se un profitto è in calo o in aumento usando gli attributi della vita e della competizione. Qui le variabili dell'albero decisionale sono categoriche (Sì, No).
Il set di dati
Vita | concorrenza | genere | Profitto |
Vecchio | sì | Software | Giù |
Vecchio | No | Software | Giù |
Vecchio | No | Hardware | Giù |
medio | sì | Software | Giù |
medio | sì | Hardware | Giù |
medio | No | Hardware | Su |
medio | No | Software | Su |
Nuovo | sì | Software | Su |
Nuovo | No | Hardware | Su |
Nuovo | No | Software | Su |
Dal set di dati sopra riportato: vita, competizione, Tipo sono i predittori e l'attributo del profitto è l'obiettivo. Esistono vari algoritmi per implementare un albero decisionale, ma l'algoritmo migliore usato per costruire un albero decisionale è ID3 che enfatizza l'approccio avido di ricerca. L'albero decisionale segue la regola di inferenza decisionale o la forma normale disgiuntiva (^).
Albero decisionale
Inizialmente, tutto l'attributo di training è considerato la radice. La priorità dell'ordine per posizionare gli attributi come root viene eseguita dal seguente approccio. Questo processo è noto per l'attribuzione della selezione per identificare quale attributo è fatto per essere un nodo radice ad ogni livello. L'albero segue due passaggi: costruzione di un albero, potatura di alberi. E i dati sono stati divisi in tutti i nodi decisionali.
Guadagno di informazioni
È la misura del cambiamento di entropia basato sulla variabile indipendente. L'albero decisionale deve trovare il massimo guadagno di informazioni.
entropia
L'entropia è definita come per l'insieme finito, la misura della casualità nei dati o la prevedibilità degli eventi, se il campione ha valori simili, allora l'entropia è zero e se è equamente diviso con il campione, allora è uno.
Entropia per la classe
Dove p è la probabilità di ottenere un profitto per dire "sì" e N è la perdita, dire "no".
pertanto, entropia = 1
Una volta calcolato il valore di entropia, è necessario decidere un nodo radice dall'attributo.
Entropia dell'età
Secondo il set di dati per l'attributo Vita abbiamo old = 3 down, mid = 2 down e uno up per quanto riguarda l'etichetta di profitto.
Vita | Pi | ni | I (pi, ni) | |
Vecchio | 0 | 3 | 0 | |
medio | 2 | 2 | 1 | |
Nuovo | 3 | 0 | 0 |
Guadagno = Entropia di classe - Entropia della vita = 1 - 0.4 = 0.6
Entropia (competizione) = 0, 87
concorrenza | Pi | ni | I (pi, ni) | |
sì | 1 | 3 | 0.8 | |
No | 4 | 2 | 0.9 |
Guadagno = Entropia di classe - Entropia della vita = 1 - 0, 87 = 0, 12
Ora il problema sorge nell'attributo Vita in cui la metà ha una uguale probabilità sia su che giù. pertanto, l'entropia è 1. allo stesso modo, viene calcolata per l'attributo type di nuovo l'entropia è 1 e il guadagno è 0. Ora è stata creata una decisione completa per ottenere un risultato accurato per il valore medio.
Vantaggi dell'albero decisionale
- Sono facili da capire e le regole generate sono flessibili. Ha poco sforzo per la preparazione dei dati.
- Un approccio visivo per rappresentare decisioni e risultati è molto utile.
- L'albero decisionale gestisce il set di dati di addestramento con errori e valori mancanti.
- Possono gestire un valore discreto e un attributo numerico. Funziona con variabili categoriche e continue per input e output.
- Sono uno strumento utile per il dominio aziendale che deve prendere decisioni dopo aver analizzato a determinate condizioni.
Svantaggi dell'albero decisionale
- Gli studenti possono creare un albero decisionale complesso a seconda dei dati addestrati. questo processo è definito come overfitting, un processo difficile nei modelli dell'albero decisionale.
- I valori che preferiscono essere sono categorici, se sono continui, l'albero decisionale perde informazioni che portano a errori. La crescita del calcolo esponenziale è maggiore durante l'analisi.
- Molte etichette di classe portano a calcoli complessi errati e forniscono una precisione di previsione bassa del set di dati.
- Le informazioni acquisite nell'algoritmo DT forniscono una risposta distorta a valori categorici più elevati.
Conclusione
Pertanto, per concludere, gli alberi decisionali forniscono un metodo pratico e semplice per l'apprendimento e fortemente noto come strumenti efficienti per l'apprendimento automatico poiché in breve tempo funzionano bene con set di dati di grandi dimensioni. È un compito di apprendimento che utilizza un approccio statistico per trarre una conclusione generalizzata. Ora si comprende meglio perché l'albero decisionale viene utilizzato nella modellazione predittiva e per i data scientist sono il potente strumento.
Articoli consigliati
Questa è una guida per creare un albero decisionale. Qui discutiamo come creare un albero decisionale insieme a vari vantaggi e svantaggi. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -
- Panoramica dell'albero decisionale in R
- Cos'è l'algoritmo dell'albero decisionale?
- Introduzione agli strumenti di intelligenza artificiale
- Le 10 domande per l'intervista sull'intelligenza artificiale