Introduzione all'algoritmo KNN in R
Nell'algoritmo KNN in R, KNN sta per K algoritmo vicino più vicino e R è un linguaggio di programmazione. Si dice che sia il più semplice algoritmo di apprendimento automatico. KNN è un algoritmo supervisionato che classifica i punti dati in una classe target confrontando le funzionalità con il vicino più vicino.
Esempio: supponiamo che tu voglia classificare un touchscreen e un telefono tastiera. Esistono vari fattori che implicano la differenziazione di entrambi i telefoni. Tuttavia, il fattore che differenzia entrambi i telefoni è la tastiera. Quindi, quando riceviamo un punto dati (ad es. Telefono). Lo confrontiamo con le caratteristiche simili dei punti dati vicini per classificarlo come una tastiera o un telefono touch.
Caratteristiche dell'algoritmo KNN
Qui studieremo le caratteristiche dell'algoritmo KNN:
- L'algoritmo KNN utilizza i dati di input per prevedere i punti di dati del set di output.
- L'algoritmo può essere applicato a vari insiemi di problemi.
- Si concentra sulla somiglianza delle funzionalità per classificare i dati.
- L'algoritmo KNN gestisce dati realistici e non fa ipotesi sui punti dati.
- KNN memorizza il set di dati di allenamento piuttosto che essere intuitivo. Inoltre, si può dire che ha un approccio pigro.
- Può risolvere i problemi di classificazione e regressione.
Affrontare i problemi nell'algoritmo KNN in R
Problema di indirizzamento seguente:
1. Problema di classificazione
Nel problema della classificazione, i valori sono discreti, proprio come se ti piace mangiare la pizza con condimenti o senza. C'è un terreno comune. KNN Algorithm aiuta a risolvere questo problema.
2. Problema di regressione
Il problema della regressione viene alla luce quando abbiamo una variabile dipendente e una variabile indipendente. Es: indice BMI. In genere, ogni riga contiene un'osservazione o un punto dati e un esempio.
L'algoritmo KNN in R
Diamo un'occhiata ai passaggi dell'algoritmo da seguire:
Passaggio 1: caricare i dati di input.
Passaggio 2: inizializzare K con il numero dei vicini più vicini.
Passaggio 3: calcolo dei dati (ovvero distanza tra il vicino corrente e il vicino più vicino)
Passaggio 4: aggiunta della distanza al set di dati attualmente ordinato.
Passaggio 5: raccogliere le voci K ed etichettarle.
Passaggio 6: restituire il valore medio per il problema di regressione.
Passaggio 7: restituire il valore della modalità per problemi di classificazione.
Punti da ricordare durante l'implementazione dell'algoritmo KNN
- Dovremmo assicurarci che il valore K sia maggiore di uno, impedisce che la previsione sia accurata.
- Maggiore è il valore K più precisa può essere la previsione dovuta alla maggioranza.
- È preferibile avere K come numero dispari. Altrimenti, può portare a un pareggio.
KNN Pseudocodice
Nella formula seguente, rappresenta le variabili e rappresenta i punti dati in cui (i = 1, 2, 3….)
Set(, )
Casi d'uso
Di seguito sono riportati i casi d'uso dell'algoritmo KNN in R:
1. Confronto tra prodotti e assistenza nelle raccomandazioni di acquisto
Quando acquistiamo un laptop o un computer da un sito Web di e-commerce online, vediamo anche consigli per lo shopping come l'acquisto di software antivirus o altoparlanti. Tutto questo perché quando un cliente precedente acquista un laptop, questo viene acquistato principalmente insieme ad antivirus o altoparlanti. L'apprendimento automatico aiuta nelle raccomandazioni di e-commerce.
2. Raccomandazioni alimentari
L'apprendimento automatico aiuta anche nelle raccomandazioni basate sul cibo precedentemente ordinato e suggerisce anche i ristoranti di conseguenza.
Esempio dell'algoritmo KNN
Di seguito sono riportati gli esempi dell'algoritmo KNN:
1. Importazione di dati
Prendiamo i dati fittizi su di noi predicendo le dimensioni della maglietta di un ragazzo con l'aiuto di altezza e peso.
Altezza (cm) | Peso (kg) | Taglia |
140 | 58 | S |
140 | 59 | S |
140 | 63 | S |
150 | 59 | M |
152 | 60 | M |
153 | 60 | M |
154 | 61 | M |
155 | 64 | M |
156 | 64 | M |
157 | 61 | M |
160 | 62 | L |
161 | 65 | L |
162 | 62 | L |
163 | 63 | L |
163 | 66 | L |
165 | 63 | L |
165 | 64 | L |
165 | 68 | L |
2. Trovare le somiglianze calcolando la distanza
Possiamo usare sia la distanza di Manhattan che quella di Euclide poiché i dati sono continui. Calcoliamo la distanza tra il nuovo campione e il set di dati di allenamento, quindi troviamo K-più vicino.
Esempio: supponiamo che "Raj" abbia un'altezza di 165 cm e pesa 63 kg. Calcoliamo la distanza euclidea utilizzando la prima osservazione con il nuovo campione: SQRT ((165-140) 2 + (63-58) 2)
3. Trovare i vicini K-più vicini
Supponiamo che K = 4, ci siano 4 clienti in cui 3 di medie dimensioni e 1 di grandi dimensioni. La migliore previsione è di medie dimensioni adatta a Raj.
Differenza tra KNN e K-media
Di seguito sono le differenze:
- KNN è un algoritmo supervisionato (variabile dipendente) mentre K-mean è un algoritmo non supervisionato (nessuna variabile dipendente).
- K-mean usa una tecnica di clustering per dividere i punti dati formando i cluster K.KNN usa i vicini K-più vicini per classificare i punti dati e li combina.
Vantaggi e svantaggi di KNN
Di seguito sono riportati i vantaggi:
- L'algoritmo KNN è versatile, può essere utilizzato per problemi di classificazione e regressione.
- Non è necessario un modello precedente per creare l'algoritmo KNN.
- Semplice e facile da implementare.
Di seguito sono riportati gli svantaggi:
- L'algoritmo all'aumentare del numero di campioni (ovvero no di variabili)
Articoli consigliati
Questa è una guida all'algoritmo KNN in R. Qui discutiamo caratteristiche, esempi, pseudocodici, passi da seguire in Algoritmo KNN. Puoi anche consultare i nostri altri articoli correlati per saperne di più-
- Algoritmi di scienza dei dati
- Cos'è l'algoritmo genetico?
- Algoritmi di routing
- Algoritmi di rete neurale
- Algoritmo C ++ | Esempi di algoritmo C ++