Panoramica sull'apprendimento automatico dell'iperparametro

Per ogni modello, abbiamo bisogno di alcuni parametri, che aiutano a fornire una base per la soluzione del problema / analisi e valutazione del modello. Alcuni di questi parametri devono essere appresi dai dati e alcuni dobbiamo definire esplicitamente dalla nostra parte. I parametri che possono essere appresi dai dati senza essere definiti in modo esplicito sono chiamati parametri del modello. Il parametro definito esplicitamente dall'utente si chiama Hyperparameters. Gli iperparametri sono anche parametri del solo modello, ma il termine iperparametro viene utilizzato nell'apprendimento automatico in modo che possano essere facilmente distinti e non essere confusi con i parametri del modello appresi dal set di dati.

Che cos'è l'apprendimento automatico dell'iperparametro?

Per la maggior parte dei framework nell'apprendimento automatico, gli iperparametri non hanno una definizione rigorosa. Questi iperparametri governano il sistema sottostante di un modello che guida i parametri primari (modali) del modello. Proviamo a capire gli iperparametri con il seguente esempio.

  • Accordare il violino è molto cruciale quando si è in fase di apprendimento perché a quel tempo si creano connessioni tra sensi diversi. Orecchie, dita e occhi stanno imparando tutti il ​​violino allo stesso tempo. Ora In principio Abituarsi al suono del violino fuori tono crea un cattivo gusto del suono, che rovinerà l'intera esperienza di innamoramento del processo di apprendimento del violino.
  • Ecco perché accordare il violino può davvero aiutare uno nel processo di apprendimento del violino. Allo stesso modo, l'iperparametro è una sorta di messa a punto per il modello di Machine Learning in modo da dare la giusta direzione.
  • Gli iperparametri sono generalmente definiti prima di applicare un algoritmo di apprendimento automatico a un set di dati.
  • Ora il prossimo compito è quello che dovrebbe essere l'iperparametro e quale dovrebbe essere il suo valore. Perché uno deve sapere quali stringhe sono necessarie per essere accordato e come accordare il violino prima di accordarlo. Lo stesso vale per gli iperparametri, dobbiamo definire quali iperparametri e quale dovrebbe essere il suo valore, fondamentalmente dipende da ogni attività e ogni set di dati.
  • Per capirlo, prendiamo la prospettiva dell'ottimizzazione del modello.
  • Nell'implementazione del modello di apprendimento automatico, l'ottimizzazione del modello gioca un ruolo vitale. Esistono numerose branche dell'apprendimento automatico dedicate esclusivamente all'ottimizzazione del modello di apprendimento automatico. Si ritiene generalmente che, al fine di ottimizzare il modello, sia necessario modificare il codice in modo che l'errore possa essere ridotto al minimo.
  • Tuttavia, ci sono elementi nascosti che influenzano l'ottimizzazione dell'apprendimento automatico che è al di fuori del modello e hanno una grande influenza sul comportamento del modello. Questi elementi nascosti vengono definiti iperparametri, componenti fondamentali per l'ottimizzazione di qualsiasi modello di apprendimento automatico.
  • Gli iperparametri sono regolatori / impostazioni che controllano il comportamento di un modello. Questi iperparametri sono definiti all'esterno del modello ma hanno una relazione diretta con le prestazioni del modello. Gli iperparametri potrebbero essere considerati ortogonali al modello.
  • I criteri per la definizione di un iperparametro sono molto flessibili e astratti. Sicuramente ci sono alcuni iperparametri come il numero di livelli nascosti, il tasso di apprendimento di un modello che sono ben stabiliti e anche alcune impostazioni che possono essere trattate come iperparametro per un modello specifico, come il controllo della capacità del modello.
  • Ci sono possibilità che l'algoritmo si adatti a un modello se gli algoritmi apprendono direttamente attraverso le impostazioni. Come è chiaro, gli iperparametri non vengono appresi / messi a punto tramite il set di allenamento, quindi il set di test o di validazione viene utilizzato per la selezione degli iperparametri. A broadway abbiamo impostato diversi valori di iperparametro, quello che funziona meglio con un set di test o di validazione è considerato il nostro migliore iperparametro.

Categorie di iperparametro

Per diversi tipi di set di dati e in base al modello, possiamo avere diversi iperparametri per migliorare le prestazioni del modello. In generale, gli iperparametri possono essere classificati in due categorie.

  • Iperparametro per l'ottimizzazione
  • Iperparametri per modelli specifici

Discutiamo ciascuno di questi.

1. Iperparametri per l'ottimizzazione

Come suggerisce il nome, questi iperparametri vengono utilizzati per l'ottimizzazione del modello.

  • Tasso di apprendimento

Questo iperparametro determina la quantità di dati acquisiti che sovrascriveranno i vecchi dati disponibili. Se il valore di questo iperparametro è elevato, il tasso di apprendimento più elevato non ottimizzerà correttamente il modello perché ci sono possibilità che salti sui minimi. D'altra parte, se il tasso di apprendimento è preso molto meno, la convergenza sarà molto lenta.

Il tasso di apprendimento gioca un ruolo cruciale nell'ottimizzazione delle prestazioni del modello perché in alcuni casi i modelli hanno centinaia di parametri (parametri del modello) con curva di errore, il tasso di apprendimento deciderà la frequenza del controllo incrociato con tutti i parametri. Inoltre, è difficile trovare i minimi locali delle curve di errore perché generalmente hanno curve irregolari.

  • Dimensione del lotto

Per accelerare il processo di apprendimento, il set di formazione è diviso in diversi lotti. Nel caso della procedura stocastica di addestramento del modello, un piccolo lotto viene addestrato, valutato e backpropagato in modo da regolare i valori di tutti i vostri iperparametri, lo stesso viene ripetuto per l'intero set di allenamento.

Se la dimensione del batch è maggiore di quella aumenterà il tempo di apprendimento e richiederà più memoria per l'elaborazione per la moltiplicazione della matrice. Se la dimensione del batch è inferiore a quella, si avrà più rumore nel calcolo dell'errore.

  • Numero di epoche

Epoch rappresenta un ciclo completo per l'apprendimento dei dati in Machine Learning. Le epoche svolgono un ruolo molto importante nel processo di apprendimento iterativo.

Viene considerato un errore di convalida per determinare il giusto numero di epoche. Si può aumentare il numero di epoche purché vi sia una riduzione in un errore di validazione. Se l'errore di validazione non migliora per epoche consecutive, allora è un segnale per fermare un numero crescente di epoche. È anche noto come arresto anticipato.

2. Iperparametri per modelli specifici

Alcuni iperparametri sono coinvolti nella struttura del modello stesso. Alcuni di questi sono i seguenti.

  • Numero di unità nascoste

È fondamentale definire un numero di unità nascoste per le reti neurali in modelli di apprendimento profondo. Questo iperparametro viene utilizzato per definire la capacità di apprendimento del modello. per funzioni complesse, dobbiamo definire un numero di unità nascoste, ma tieni presente che non dovrebbe adattarsi al modello.

  • Numero di strati

È ovvio che una rete neurale con 3 strati darà prestazioni migliori di quella di 2 strati. Aumentare più di 3 non aiuta molto nelle reti neurali. Nel caso della CNN, un numero crescente di strati migliora il modello.

Conclusione

I parametri ipertestuali vengono definiti esplicitamente prima di applicare un algoritmo di apprendimento automatico a un set di dati. Gli iperparametri vengono utilizzati per definire la complessità di livello superiore del modello e della capacità di apprendimento. Gli iperparametri possono anche essere impostazioni per il modello. Alcuni iperparametri sono definiti per l'ottimizzazione dei modelli (dimensione del lotto, frequenza di apprendimento, ecc.) E alcuni sono specifici per i modelli (numero di strati nascosti, ecc.).

Articoli consigliati

Questa è una guida all'apprendimento automatico dell'iperparametro. Qui discutiamo la panoramica e cos'è l'apprendimento automatico dell'iperparametro con le sue categorie. Puoi anche consultare i seguenti articoli per saperne di più -

  1. Introduzione all'apprendimento automatico
  2. Apprendimento automatico senza supervisione
  3. Tipi di algoritmi di apprendimento automatico
  4. Applicazioni dell'apprendimento automatico
  5. Implementazione di reti neurali
  6. Top 6 Confronti tra CNN vs RNN

Categoria: