Introduzione alle reti neurali convoluzionali

Le reti neurali convoluzionali, note anche come CNN o ConvNet, rientrano nella categoria delle reti neurali artificiali utilizzate per l'elaborazione e la visualizzazione delle immagini. L'intelligenza artificiale utilizza l'apprendimento profondo per svolgere il compito. Le reti neurali sono hardware o software programmati come neuroni nel cervello umano. La rete neurale tradizionale prende solo immagini di risoluzione ridotta come input. La CNN risolve questo problema organizzando i loro neuroni come il lobo frontale del cervello umano. La pre-elaborazione su CNN è molto inferiore rispetto ad altri algoritmi. Convoluzione, un'operazione matematica lineare è impiegata sulla CNN. Usa la convoluzione invece della moltiplicazione di matrice generale in uno dei suoi strati.

Strati nelle reti neurali convoluzionali

Di seguito sono riportati gli strati delle reti neurali convoluzionali:

1. Livello di input dell'immagine

Il livello di input fornisce input (principalmente immagini) e viene eseguita la normalizzazione. Le dimensioni di input devono essere menzionate qui.

2. Strato convoluzionale

La convoluzione viene eseguita in questo livello e l'immagine viene divisa in percettroni (algoritmo), vengono creati campi locali che portano alla compressione dei percettroni per caratterizzare le mappe come una matrice con dimensioni mx n.

3. Livello di non linearità

Qui le mappe delle caratteristiche sono prese come input e le mappe di attivazione sono fornite come output con l'aiuto della funzione di attivazione. La funzione di attivazione è generalmente implementata come funzioni tangenti sigmoide o iperbolica.

4. Livello di rettifica

Componente cruciale della CNN, questo strato consente di allenarsi più velocemente senza ridurre la precisione. Esegue un'operazione di valore assoluto per elemento sulle mappe di attivazione.

5. Unità lineari rettificate (ReLU)

ReLU combina strati non lineari e di rettifica su CNN. Ciò esegue l'operazione di soglia in cui i valori negativi vengono convertiti in zero. Tuttavia, ReLU non modifica la dimensione dell'input.

6. Livello di pooling

Il livello di pooling è anche chiamato livello di downsampling in quanto è responsabile della riduzione delle dimensioni delle mappe di attivazione. Un filtro e un passo della stessa lunghezza vengono applicati al volume di input. Questo livello ignora i dati meno significativi, quindi il riconoscimento delle immagini viene eseguito in una rappresentazione più piccola. Questo strato riduce l'adattamento eccessivo. Poiché la quantità di parametri viene ridotta utilizzando il livello di pooling, anche il costo viene ridotto. L'input è diviso in aree di raggruppamento rettangolari e viene calcolato il massimo o la media, che restituisce il massimo o la media di conseguenza. Max Pooling è popolare.

7. Livello di abbandono

Questo livello imposta in modo casuale il livello di input su zero con una data probabilità. Più risultati in diversi elementi vengono eliminati dopo questa operazione. Questo strato aiuta anche a ridurre il sovradimensionamento. Rende ridondante la rete. Nessun apprendimento avviene in questo livello. Questa operazione viene eseguita solo durante l'allenamento.

8. Livello completamente connesso

Le mappe di attivazione, che sono l'output dei layer precedenti, vengono trasformate in una distribuzione di probabilità di classe in questo layer. Il livello FC moltiplica l'input per una matrice di peso e aggiunge il vettore di polarizzazione.

9. Livello di output

Il livello FC è seguito da livelli di softmax e di classificazione. La funzione softmax viene applicata all'ingresso. Il livello di classificazione calcola l'entropia incrociata e la funzione di perdita per problemi di classificazione.

10. Livello di regressione

In questo livello viene calcolato l'errore quadratico medio medio. Questo livello dovrebbe seguire il livello FC.

Architettura della rete neurale convoluzionale

Di seguito sono riportate le architetture delle reti neurali convoluzionali:

1. LeNet

LeNet è stata introdotta per il riconoscimento ottico e dei caratteri nei documenti nel 1998. È piccola e perfetta per funzionare con la CPU. LeNet è piccola e facile da comprendere. Questo è costruito con tre idee principali: i campi ricettivi locali hanno condiviso pesi e il campionamento spaziale. La rete mostra la migliore rappresentazione interna delle immagini grezze. Ha tre livelli convoluzionali, due livelli di pooling, uno di livello completamente connesso e uno di output. Uno strato convoluzionale è stato immediatamente seguito dal livello di pooling. Tutti i livelli sono spiegati sopra.

2. AlexNet

AlexNet è stato sviluppato nel 2012. Questa architettura ha reso popolare la CNN in Computer vision. Ha cinque livelli convoluzionali e tre livelli completamente collegati in cui ReLU viene applicato dopo ogni livello. Sfrutta i vantaggi di entrambi gli strati poiché uno strato convoluzionale ha pochi parametri e un lungo calcolo ed è l'opposto di uno strato completamente connesso. Il sovradimensionamento è stato notevolmente ridotto dall'aumento e dall'abbandono dei dati. AlexNet era più profondo, i livelli più grandi e convoluzionali non sono separati dal pool pool rispetto a LeNet.

3. ZF Net

ZF Net è stato sviluppato nel 2013, che era una versione modificata di AlexNet. La dimensione dello strato convoluzionale medio fu espansa e il passo del primo strato convoluzionale e la dimensione del filtro furono ridotti. Ha appena riconosciuto le carenze di AlexNet e ne ha sviluppato una superiore. Tutti i livelli sono uguali a quelli di AlexNet. ZF Net regola i parametri del layer come la dimensione del filtro o il passo di AlexNet, che consente di ridurre i tassi di errore.

4. GoogLeNet

Questa architettura è stata sviluppata nel 2014. Il livello iniziale è il concetto centrale. Questo strato copre l'area più grande ma prende nota di piccole informazioni sull'immagine. Per migliorare le prestazioni, GoogLeNet utilizza nove moduli di avvio. Poiché il livello iniziale è soggetto a overfitting, qui vengono utilizzate più non linearità e meno parametri. Il livello pool massimo viene utilizzato per concatenare l'output del livello precedente. Questa architettura ha 22 livelli e i parametri sono 12 volte inferiori. Questo è più preciso di AlexNet, anche più veloce. Il tasso di errore è relativamente più basso. Il livello di pool medio viene utilizzato alla fine invece di un livello completamente connesso. Il calcolo è ridotto, la profondità e la larghezza sono aumentate. Molti moduli di avvio sono collegati per approfondire l'architettura. GoogLeNet ha sovraperformato tutte le altre architetture sviluppate fino al 2014. Per questa architettura sono disponibili diverse versioni di follow-up.

5. VGG Net

Questo è stato un miglioramento rispetto a ZFNet e successivamente ad AlexNet. Dispone di 16 livelli con livelli 3 × 3 convoluzionali, livelli di raggruppamento 2 × 2 e livelli completamente collegati. Questa architettura adotta la struttura di rete più semplice ma ha la maggior parte dei parametri.

6. ResNet

L'architettura di rete residua è stata sviluppata nel 2015. Utilizza la normalizzazione batch e salta l'uso di layer FC. Questa architettura utilizza 152 livelli e utilizza le connessioni skip. ResNet è attualmente utilizzato principalmente in tutti gli algoritmi di deep learning.

Conclusione

Facebook utilizza la CNN per la codifica delle immagini, Amazon per i consigli sui prodotti e Google per cercare tra le foto degli utenti. Tutto ciò viene eseguito con maggiore precisione ed efficienza. Il progresso nell'apprendimento profondo ha raggiunto uno stadio in cui la CNN è stata sviluppata e aiuta in molti modi. Man mano che la CNN complicata diventa, aiuta a migliorare l'efficienza.

Articolo raccomandato

Questa è una guida alle reti neurali convoluzionali. Qui discutiamo Introduzione alle reti neurali convoluzionali e ai suoi strati insieme all'architettura. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -

  1. Classificazione della rete neurale
  2. Apprendimento automatico vs rete neurale
  3. Panoramica degli algoritmi di rete neurale
  4. Reti neurali ricorrenti (RNN)
  5. Implementazione di reti neurali
  6. Top 6 Confronti tra CNN vs RNN

Categoria: