Introduzione all'algoritmo KNN in R

Nell'algoritmo KNN in R, KNN sta per K algoritmo vicino più vicino e R è un linguaggio di programmazione. Si dice che sia il più semplice algoritmo di apprendimento automatico. KNN è un algoritmo supervisionato che classifica i punti dati in una classe target confrontando le funzionalità con il vicino più vicino.

Esempio: supponiamo che tu voglia classificare un touchscreen e un telefono tastiera. Esistono vari fattori che implicano la differenziazione di entrambi i telefoni. Tuttavia, il fattore che differenzia entrambi i telefoni è la tastiera. Quindi, quando riceviamo un punto dati (ad es. Telefono). Lo confrontiamo con le caratteristiche simili dei punti dati vicini per classificarlo come una tastiera o un telefono touch.

Caratteristiche dell'algoritmo KNN

Qui studieremo le caratteristiche dell'algoritmo KNN:

  • L'algoritmo KNN utilizza i dati di input per prevedere i punti di dati del set di output.
  • L'algoritmo può essere applicato a vari insiemi di problemi.
  • Si concentra sulla somiglianza delle funzionalità per classificare i dati.
  • L'algoritmo KNN gestisce dati realistici e non fa ipotesi sui punti dati.
  • KNN memorizza il set di dati di allenamento piuttosto che essere intuitivo. Inoltre, si può dire che ha un approccio pigro.
  • Può risolvere i problemi di classificazione e regressione.

Affrontare i problemi nell'algoritmo KNN in R

Problema di indirizzamento seguente:

1. Problema di classificazione

Nel problema della classificazione, i valori sono discreti, proprio come se ti piace mangiare la pizza con condimenti o senza. C'è un terreno comune. KNN Algorithm aiuta a risolvere questo problema.

2. Problema di regressione

Il problema della regressione viene alla luce quando abbiamo una variabile dipendente e una variabile indipendente. Es: indice BMI. In genere, ogni riga contiene un'osservazione o un punto dati e un esempio.

L'algoritmo KNN in R

Diamo un'occhiata ai passaggi dell'algoritmo da seguire:

Passaggio 1: caricare i dati di input.

Passaggio 2: inizializzare K con il numero dei vicini più vicini.

Passaggio 3: calcolo dei dati (ovvero distanza tra il vicino corrente e il vicino più vicino)

Passaggio 4: aggiunta della distanza al set di dati attualmente ordinato.

Passaggio 5: raccogliere le voci K ed etichettarle.

Passaggio 6: restituire il valore medio per il problema di regressione.

Passaggio 7: restituire il valore della modalità per problemi di classificazione.

Punti da ricordare durante l'implementazione dell'algoritmo KNN

  • Dovremmo assicurarci che il valore K sia maggiore di uno, impedisce che la previsione sia accurata.
  • Maggiore è il valore K più precisa può essere la previsione dovuta alla maggioranza.
  • È preferibile avere K come numero dispari. Altrimenti, può portare a un pareggio.

KNN Pseudocodice

Nella formula seguente, rappresenta le variabili e rappresenta i punti dati in cui (i = 1, 2, 3….)

Set(, )

Casi d'uso

Di seguito sono riportati i casi d'uso dell'algoritmo KNN in R:

1. Confronto tra prodotti e assistenza nelle raccomandazioni di acquisto

Quando acquistiamo un laptop o un computer da un sito Web di e-commerce online, vediamo anche consigli per lo shopping come l'acquisto di software antivirus o altoparlanti. Tutto questo perché quando un cliente precedente acquista un laptop, questo viene acquistato principalmente insieme ad antivirus o altoparlanti. L'apprendimento automatico aiuta nelle raccomandazioni di e-commerce.

2. Raccomandazioni alimentari

L'apprendimento automatico aiuta anche nelle raccomandazioni basate sul cibo precedentemente ordinato e suggerisce anche i ristoranti di conseguenza.

Esempio dell'algoritmo KNN

Di seguito sono riportati gli esempi dell'algoritmo KNN:

1. Importazione di dati

Prendiamo i dati fittizi su di noi predicendo le dimensioni della maglietta di un ragazzo con l'aiuto di altezza e peso.

Altezza (cm) Peso (kg) Taglia
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Trovare le somiglianze calcolando la distanza

Possiamo usare sia la distanza di Manhattan che quella di Euclide poiché i dati sono continui. Calcoliamo la distanza tra il nuovo campione e il set di dati di allenamento, quindi troviamo K-più vicino.

Esempio: supponiamo che "Raj" abbia un'altezza di 165 cm e pesa 63 kg. Calcoliamo la distanza euclidea utilizzando la prima osservazione con il nuovo campione: SQRT ((165-140) 2 + (63-58) 2)

3. Trovare i vicini K-più vicini

Supponiamo che K = 4, ci siano 4 clienti in cui 3 di medie dimensioni e 1 di grandi dimensioni. La migliore previsione è di medie dimensioni adatta a Raj.

Differenza tra KNN e K-media

Di seguito sono le differenze:

  • KNN è un algoritmo supervisionato (variabile dipendente) mentre K-mean è un algoritmo non supervisionato (nessuna variabile dipendente).
  • K-mean usa una tecnica di clustering per dividere i punti dati formando i cluster K.KNN usa i vicini K-più vicini per classificare i punti dati e li combina.

Vantaggi e svantaggi di KNN

Di seguito sono riportati i vantaggi:

  • L'algoritmo KNN è versatile, può essere utilizzato per problemi di classificazione e regressione.
  • Non è necessario un modello precedente per creare l'algoritmo KNN.
  • Semplice e facile da implementare.

Di seguito sono riportati gli svantaggi:

  • L'algoritmo all'aumentare del numero di campioni (ovvero no di variabili)

Articoli consigliati

Questa è una guida all'algoritmo KNN in R. Qui discutiamo caratteristiche, esempi, pseudocodici, passi da seguire in Algoritmo KNN. Puoi anche consultare i nostri altri articoli correlati per saperne di più-

  1. Algoritmi di scienza dei dati
  2. Cos'è l'algoritmo genetico?
  3. Algoritmi di routing
  4. Algoritmi di rete neurale
  5. Algoritmo C ++ | Esempi di algoritmo C ++

Categoria: