Che cos'è l'apprendimento per rinforzo? - Funzione e vari fattori

Sommario:

Anonim

Introduzione all'apprendimento per rinforzo

L'apprendimento per rinforzo è un tipo di apprendimento automatico e quindi fa anche parte dell'intelligenza artificiale, quando applicati ai sistemi, i sistemi eseguono passaggi e apprendono in base al risultato di passaggi per ottenere un obiettivo complesso che il sistema deve raggiungere.

Comprendere l'apprendimento per rinforzo

Proviamo a lavorare sull'apprendimento per rinforzo con l'aiuto di 2 semplici casi d'uso:

Caso 1

C'è un bambino in famiglia e ha appena iniziato a camminare e tutti ne sono abbastanza contenti. Un giorno, i genitori cercano di stabilire un obiettivo, facciamo in modo che il bambino raggiunga il divano e vediamo se il bambino è in grado di farlo.

Risultato del caso 1: il bambino raggiunge con successo il divano e quindi tutti in famiglia sono molto felici di vederlo. Il percorso scelto ora arriva con una ricompensa positiva.

Punti: Ricompensa + (+ n) → Ricompensa positiva.

Fonte: https://images.app.goo.gl/pGCXJ1N1bzLAer126

Caso n. 2

Il bambino non è stato in grado di raggiungere il divano e il bambino è caduto. Fa male! Quale potrebbe essere la ragione? Potrebbero esserci degli ostacoli nel percorso verso il divano e il bambino era caduto in ostacoli.

Risultato del caso 2: il bambino cade su alcuni ostacoli e piange! Oh, è stato male, ha imparato, non cadere nella trappola dell'ostacolo la prossima volta. Il percorso scelto ora arriva con una ricompensa negativa.

Punti: Premi + (-n) → Ricompensa negativa.

Fonte: https://images.app.goo.gl/FRfd8cUqrQRLe6sZ7

Questo ora abbiamo visto i casi 1 e 2, l'apprendimento per rinforzo, in teoria, fa lo stesso, tranne per il fatto che non è umano ma invece eseguito a livello computazionale.

Utilizzo dell'armatura per gradi

Comprendiamo l'apprendimento del rinforzo portando un agente di rinforzo in modo graduale. In questo esempio, il nostro agente per l'apprendimento del rinforzo è Mario, che imparerà a suonare da solo:

Fonte: https://images.app.goo.gl/Kj44uvBzWzMw1QzE9

  • Lo stato attuale dell'ambiente di gioco di Mario è S_0. Perché il gioco non è ancora iniziato e Mario è al suo posto.
  • Successivamente, il gioco viene avviato e Mario si sposta, l'agente Mario ie RL prende e l'azione, diciamo A_0.
  • Ora lo stato dell'ambiente di gioco è diventato S_1.
  • Inoltre, all'agente RL, ovvero al Mario, ora viene assegnato un punto di ricompensa positivo, R_1, probabilmente perché Mario è ancora vivo e non si è riscontrato alcun pericolo.

Ora il ciclo sopra continuerà a funzionare fino a quando il Mario non sarà finalmente morto o il Mario non raggiungerà la sua destinazione. Questo modello produrrà continuamente azione, ricompensa e stato.

Premi di massimizzazione

L'obiettivo dell'apprendimento per rinforzo è massimizzare i premi tenendo conto di alcuni altri fattori come lo sconto sui premi; spiegheremo a breve cosa si intende per sconto con l'aiuto di un'illustrazione.

La formula cumulativa per i premi scontati è la seguente:

Premi di sconto

Cerchiamo di capirlo attraverso un esempio:

  • Nella figura data, l'obiettivo è che il topo nel gioco deve mangiare tanto formaggio prima di essere mangiato da un gatto o senza essere elettroshock.
  • Ora, possiamo presumere che quanto più siamo vicini al gatto o alla trappola elettrica, maggiore è la probabilità che permettiamo al topo di essere mangiato o scioccato.
  • Ciò implica, anche se abbiamo il formaggio intero vicino al blocco delle scosse elettriche o vicino al gatto, più è rischioso andarci, è meglio mangiare il formaggio che si trova nelle vicinanze per evitare qualsiasi rischio.
  • Quindi, anche se abbiamo un "blocco1" di formaggio che è pieno ed è lontano dal gatto e dal blocco di scossa elettrica e l'altro "blocco2", che è anche pieno ma è vicino al gatto o al blocco di scossa elettrica, il blocco di formaggio successivo, ovvero "blocco2", sarà più scontato in premi rispetto al precedente.

Fonte: https://images.app.goo.gl/8QrH78FjmRVs5Wxk8

Fonte: https://cdn-images-1.medium.com/max/800/1*l8wl4hZvZAiLU56hT9vLlg.png.webp

Tipi di apprendimento per rinforzo

Di seguito sono riportati i due tipi di apprendimento del rinforzo con i loro vantaggi e svantaggi:

1. positivo

Quando la forza e la frequenza del comportamento sono aumentate a causa del verificarsi di un comportamento particolare, è noto come Apprendimento di rinforzo positivo.

Vantaggi: le prestazioni sono massimizzate e il cambiamento rimane per un tempo più lungo.

Svantaggi: i risultati possono essere ridotti se abbiamo troppi rinforzi.

2. Negativo

È il rafforzamento del comportamento, soprattutto a causa della scomparsa del termine negativo.

Vantaggi: il comportamento è aumentato.

Svantaggi: è possibile raggiungere solo il comportamento minimo del modello con l'aiuto dell'apprendimento per rinforzo negativo.

Dove dovrebbe essere usato l'apprendimento per rinforzo?

Cose che si possono fare con l'apprendimento del rinforzo / Esempi. Di seguito sono elencate le aree in cui viene utilizzato l'apprendimento per rinforzo in questi giorni:

  1. Assistenza sanitaria
  2. Formazione scolastica
  3. Giochi
  4. Visione computerizzata
  5. Gestione aziendale
  6. Robotica
  7. Finanza
  8. PNL (elaborazione del linguaggio naturale)
  9. Trasporti
  10. Energia

Carriere nell'apprendimento per rinforzo

Esiste effettivamente un rapporto dal sito di lavoro, poiché RL è una branca del machine learning, secondo il rapporto, il machine learning è il miglior lavoro del 2019. Di seguito è l'istantanea del rapporto. Secondo le tendenze attuali, un ingegnere del machine learning ha uno stipendio medio enorme di $ 146.085 e con un tasso di crescita del 344 percento.

Fonte: https://i0.wp.com/www.artificialintelligence-news.com/wp-content/uploads/2019/03/indeed-top-jobs-2019-best.jpg.webp?w=654&ssl=1

Competenze per l'apprendimento per rinforzo

Di seguito sono riportate le competenze necessarie per l'apprendimento per rinforzo:

1. Competenze di base

  • Probabilità
  • statistica
  • Modellazione dei dati

2. Competenze di programmazione

  • Fondamenti di programmazione e informatica
  • Progettazione di software
  • In grado di applicare le librerie e gli algoritmi di Machine Learning

3. Linguaggi di programmazione di apprendimento automatico

  • Pitone
  • R
  • Sebbene esistano anche altre lingue in cui è possibile progettare modelli di Machine Learning come Java, C / C ++, ma Python e R sono i linguaggi più utilizzati.

Conclusione

In questo articolo, abbiamo iniziato con una breve introduzione sull'apprendimento per rinforzo, e poi ci siamo immersi profondamente nel funzionamento di RL e in vari fattori coinvolti nel funzionamento dei modelli di RL. Quindi avevamo messo alcuni esempi del mondo reale per capire ancora meglio l'argomento. Entro la fine di questo articolo, si dovrebbe avere una buona comprensione del funzionamento dell'apprendimento per rinforzo.

Articoli consigliati

Questa è una guida a Cos'è l'apprendimento per rinforzo ?. Qui discutiamo la funzione e vari fattori coinvolti nello sviluppo di modelli di apprendimento di rinforzo, con esempi. Puoi anche consultare i nostri altri articoli correlati per saperne di più -

  1. Tipi di algoritmi di apprendimento automatico
  2. Introduzione all'intelligenza artificiale
  3. Strumenti di intelligenza artificiale
  4. Piattaforma IoT
  5. I 6 migliori linguaggi di programmazione per l'apprendimento automatico