Introduzione a K: significa algoritmo di clustering?

K: significa che il clustering appartiene all'algoritmo di apprendimento senza supervisione. Viene utilizzato quando i dati non sono definiti in gruppi o categorie, ad es. Dati senza etichetta. Lo scopo di questo algoritmo di clustering è di cercare e trovare i gruppi nei dati, in cui la variabile K rappresenta il numero di gruppi.

Comprensione di K: significa algoritmo di clustering

Questo algoritmo è un algoritmo iterativo che suddivide il set di dati in base alle loro caratteristiche in numero K di cluster o sottogruppi distinti predefiniti non sovrapposti. Rende i punti dati degli inter cluster il più simili possibile e cerca anche di mantenere i cluster il più lontano possibile. Alloca i punti dati a un cluster se la somma della distanza quadrata tra il centroide del cluster e i punti dati è al minimo dove il centroide del cluster è la media aritmetica dei punti dati che si trovano nel cluster. Una variazione minore nel cluster determina punti dati simili o omogenei all'interno del cluster.

Come funziona l'algoritmo di clustering di K-?

K- Significa che l'algoritmo di cluster ha bisogno dei seguenti input:

  • K = numero di sottogruppi o cluster
  • Set campione o formazione = (x 1, x 2, x 3, ……… x n )

Ora supponiamo di avere un set di dati senza etichetta e che dobbiamo dividerlo in cluster.

Ora dobbiamo trovare il numero di cluster. Questo può essere fatto con due metodi:

  • Metodo del gomito.
  • Scopo Metodo.

Discutiamoli in breve:

Metodo del gomito

In questo metodo, viene tracciata una curva tra "all'interno della somma dei quadrati" (WSS) e il numero di cluster. La curva tracciata ricorda un braccio umano. Si chiama metodo del gomito perché la punta del gomito nella curva ci fornisce il numero ottimale di cluster. Nel grafico o nella curva, dopo il punto del gomito, il valore di WSS cambia molto lentamente, quindi il punto del gomito deve essere considerato per fornire il valore finale del numero di cluster.

Scopo-Based

In questo metodo, i dati vengono divisi in base a metriche diverse e successivamente viene giudicato quanto sono stati eseguiti in quel caso. Ad esempio, la disposizione delle camicie nel reparto abbigliamento maschile in un centro commerciale viene effettuata in base ai criteri delle taglie. Può essere fatto in base al prezzo e anche ai marchi. Il più adatto sarebbe scelto per fornire il numero ottimale di cluster, ovvero il valore di K.

Ora torniamo al nostro set di dati sopra indicato. Possiamo calcolare il numero di cluster, ovvero il valore di K, utilizzando uno dei metodi sopra indicati.

Come utilizzare i metodi sopra?

Ora vediamo il processo di esecuzione:

Passaggio 1: inizializzazione

Innanzitutto, inizializza tutti i punti casuali chiamati come centroidi del cluster. Durante l'inizializzazione è necessario assicurarsi che i centroidi del cluster debbano essere inferiori al numero di punti dati di allenamento. Questo algoritmo è un algoritmo iterativo, quindi i successivi due passaggi vengono eseguiti in modo iterativo.

Passaggio 2: assegnazione del cluster

Dopo l'inizializzazione, vengono attraversati tutti i punti dati e viene calcolata la distanza tra tutti i centroidi e i punti dati. Ora i cluster verrebbero formati in base alla distanza minima dai centroidi. In questo esempio, i dati sono divisi in due cluster.

Passaggio 3: spostamento del centroide

Poiché i cluster formati nel passaggio precedente non sono ottimizzati, è necessario creare cluster ottimizzati. Per questo, dobbiamo spostare i centroidi in modo iterativo in una nuova posizione. Prendi i punti dati di un cluster, calcola la loro media e poi sposta il centroide di quel cluster in questa nuova posizione. Ripeti lo stesso passaggio per tutti gli altri cluster.

Passaggio 4: ottimizzazione

I due passaggi precedenti vengono eseguiti in modo iterativo finché i centroidi non si fermano, ovvero non cambiano più posizione e diventano statici. Una volta fatto ciò, l'algoritmo k- viene definito convergente.

Passaggio 5: Convergenza

Ora questo algoritmo è convergente e si formano cluster distinti e chiaramente visibili. Questo algoritmo può fornire risultati diversi a seconda di come sono stati inizializzati i cluster nel primo passaggio.

Applicazioni di K- significa algoritmo di clustering

  • Segmentazione del mercato
  • Cluster di documenti
  • Segmentazione delle immagini
  • Compressione dell'immagine
  • Quantizzazione vettoriale
  • Analisi di gruppo
  • Apprendimento delle funzioni o apprendimento dei dizionari
  • Individuazione delle aree soggette a reati
  • Rilevazione di frodi assicurative
  • Analisi dei dati di trasporto pubblico
  • Clustering di risorse IT
  • Segmentazione del cliente
  • Identificazione dei dati cancerosi
  • Utilizzato nei motori di ricerca
  • Previsione dell'attività farmacologica

Vantaggi dell'algoritmo di clustering di K-

  • È veloce
  • robusto
  • Facile da capire
  • Comparativamente efficiente
  • Se i set di dati sono distinti, si ottengono i risultati migliori
  • Produrre cluster più stretti
  • Quando vengono ricalcolati i centroidi, il cluster cambia.
  • Flessibile
  • Facile da interpretare
  • Migliore costo computazionale
  • Migliora la precisione
  • Funziona meglio con i cluster sferici

Svantaggi di K: significa algoritmo di clustering

  • Richiede specifiche precedenti per il numero di centri cluster
  • Se sono presenti due dati altamente sovrapposti, non è possibile distinguerli e non è possibile stabilire se esistono due cluster
  • Con la diversa rappresentazione dei dati, anche i risultati raggiunti sono diversi
  • La distanza euclidea può pesare in modo diseguale sui fattori
  • Fornisce l'ottima locale della funzione di errore al quadrato
  • A volte la scelta casuale dei centroidi non può dare risultati fruttuosi
  • Può essere utilizzato solo se il significato è definito
  • Impossibile gestire valori anomali e dati rumorosi
  • Non funziona per il set di dati non lineari
  • Manca di coerenza
  • Sensibile alla scala
  • Se vengono rilevati set di dati molto grandi, il computer potrebbe bloccarsi.
  • Problemi di previsione

Articoli consigliati

Questa è stata una guida all'algoritmo di clustering di K-Means. Qui abbiamo discusso del funzionamento, delle applicazioni, dei vantaggi e degli svantaggi dell'algoritmo di clustering di K-Means. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -

  1. Che cosa sono le reti neurali?
  2. Che cos'è il data mining? | Ruolo del data mining
  3. Domanda di intervista sul data mining
  4. Apprendimento automatico vs rete neurale
  5. Clustering in Machine Learning

Categoria: