K- Significa algoritmo di clustering Come Funziona - Analisi e implementazione

Introduzione a K: significa algoritmo di clustering?

K: significa che il clustering appartiene all'algoritmo di apprendimento senza supervisione. Viene utilizzato quando i dati non sono definiti in gruppi o categorie, ad es. Dati senza etichetta. Lo scopo di questo algoritmo di clustering è di cercare e trovare i gruppi nei dati, in cui la variabile K rappresenta il numero di gruppi.

Comprensione di K: significa algoritmo di clustering

Questo algoritmo è un algoritmo iterativo che suddivide il set di dati in base alle loro caratteristiche in numero K di cluster o sottogruppi distinti predefiniti non sovrapposti. Rende i punti dati degli inter cluster il più simili possibile e cerca anche di mantenere i cluster il più lontano possibile. Alloca i punti dati a un cluster se la somma della distanza quadrata tra il centroide del cluster e i punti dati è al minimo dove il centroide del cluster è la media aritmetica dei punti dati che si trovano nel cluster. Una variazione minore nel cluster determina punti dati simili o omogenei all'interno del cluster.

Come funziona l'algoritmo di clustering di K-?

K- Significa che l'algoritmo di cluster ha bisogno dei seguenti input:

K = numero di sottogruppi o cluster
Set campione o formazione = (x ₁, x ₂, x ₃, ……… x _n )

Ora supponiamo di avere un set di dati senza etichetta e che dobbiamo dividerlo in cluster.

Ora dobbiamo trovare il numero di cluster. Questo può essere fatto con due metodi:

Metodo del gomito.
Scopo Metodo.

Discutiamoli in breve:

Metodo del gomito

In questo metodo, viene tracciata una curva tra "all'interno della somma dei quadrati" (WSS) e il numero di cluster. La curva tracciata ricorda un braccio umano. Si chiama metodo del gomito perché la punta del gomito nella curva ci fornisce il numero ottimale di cluster. Nel grafico o nella curva, dopo il punto del gomito, il valore di WSS cambia molto lentamente, quindi il punto del gomito deve essere considerato per fornire il valore finale del numero di cluster.

Scopo-Based

In questo metodo, i dati vengono divisi in base a metriche diverse e successivamente viene giudicato quanto sono stati eseguiti in quel caso. Ad esempio, la disposizione delle camicie nel reparto abbigliamento maschile in un centro commerciale viene effettuata in base ai criteri delle taglie. Può essere fatto in base al prezzo e anche ai marchi. Il più adatto sarebbe scelto per fornire il numero ottimale di cluster, ovvero il valore di K.

Ora torniamo al nostro set di dati sopra indicato. Possiamo calcolare il numero di cluster, ovvero il valore di K, utilizzando uno dei metodi sopra indicati.

Come utilizzare i metodi sopra?

Ora vediamo il processo di esecuzione:

Passaggio 1: inizializzazione

Innanzitutto, inizializza tutti i punti casuali chiamati come centroidi del cluster. Durante l'inizializzazione è necessario assicurarsi che i centroidi del cluster debbano essere inferiori al numero di punti dati di allenamento. Questo algoritmo è un algoritmo iterativo, quindi i successivi due passaggi vengono eseguiti in modo iterativo.

Passaggio 2: assegnazione del cluster

Dopo l'inizializzazione, vengono attraversati tutti i punti dati e viene calcolata la distanza tra tutti i centroidi e i punti dati. Ora i cluster verrebbero formati in base alla distanza minima dai centroidi. In questo esempio, i dati sono divisi in due cluster.

Passaggio 3: spostamento del centroide

Poiché i cluster formati nel passaggio precedente non sono ottimizzati, è necessario creare cluster ottimizzati. Per questo, dobbiamo spostare i centroidi in modo iterativo in una nuova posizione. Prendi i punti dati di un cluster, calcola la loro media e poi sposta il centroide di quel cluster in questa nuova posizione. Ripeti lo stesso passaggio per tutti gli altri cluster.

Passaggio 4: ottimizzazione

I due passaggi precedenti vengono eseguiti in modo iterativo finché i centroidi non si fermano, ovvero non cambiano più posizione e diventano statici. Una volta fatto ciò, l'algoritmo k- viene definito convergente.

Passaggio 5: Convergenza

Ora questo algoritmo è convergente e si formano cluster distinti e chiaramente visibili. Questo algoritmo può fornire risultati diversi a seconda di come sono stati inizializzati i cluster nel primo passaggio.

Applicazioni di K- significa algoritmo di clustering

Segmentazione del mercato
Cluster di documenti
Segmentazione delle immagini
Compressione dell'immagine
Quantizzazione vettoriale
Analisi di gruppo
Apprendimento delle funzioni o apprendimento dei dizionari
Individuazione delle aree soggette a reati
Rilevazione di frodi assicurative
Analisi dei dati di trasporto pubblico
Clustering di risorse IT
Segmentazione del cliente
Identificazione dei dati cancerosi
Utilizzato nei motori di ricerca
Previsione dell'attività farmacologica

Vantaggi dell'algoritmo di clustering di K-

È veloce
robusto
Facile da capire
Comparativamente efficiente
Se i set di dati sono distinti, si ottengono i risultati migliori
Produrre cluster più stretti
Quando vengono ricalcolati i centroidi, il cluster cambia.
Flessibile
Facile da interpretare
Migliore costo computazionale
Migliora la precisione
Funziona meglio con i cluster sferici

Svantaggi di K: significa algoritmo di clustering

Richiede specifiche precedenti per il numero di centri cluster
Se sono presenti due dati altamente sovrapposti, non è possibile distinguerli e non è possibile stabilire se esistono due cluster
Con la diversa rappresentazione dei dati, anche i risultati raggiunti sono diversi
La distanza euclidea può pesare in modo diseguale sui fattori
Fornisce l'ottima locale della funzione di errore al quadrato
A volte la scelta casuale dei centroidi non può dare risultati fruttuosi
Può essere utilizzato solo se il significato è definito
Impossibile gestire valori anomali e dati rumorosi
Non funziona per il set di dati non lineari
Manca di coerenza
Sensibile alla scala
Se vengono rilevati set di dati molto grandi, il computer potrebbe bloccarsi.
Problemi di previsione

Articoli consigliati

Questa è stata una guida all'algoritmo di clustering di K-Means. Qui abbiamo discusso del funzionamento, delle applicazioni, dei vantaggi e degli svantaggi dell'algoritmo di clustering di K-Means. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -

Che cosa sono le reti neurali?
Che cos'è il data mining? | Ruolo del data mining
Domanda di intervista sul data mining
Apprendimento automatico vs rete neurale
Clustering in Machine Learning

K- Significa algoritmo di clustering Come Funziona - Analisi e implementazione

Sommario:

Introduzione a K: significa algoritmo di clustering?

Comprensione di K: significa algoritmo di clustering

Come funziona l'algoritmo di clustering di K-?

Metodo del gomito

Scopo-Based

Come utilizzare i metodi sopra?

Passaggio 1: inizializzazione

Passaggio 2: assegnazione del cluster

Passaggio 3: spostamento del centroide

Passaggio 4: ottimizzazione

Passaggio 5: Convergenza

Applicazioni di K- significa algoritmo di clustering

Vantaggi dell'algoritmo di clustering di K-

Svantaggi di K: significa algoritmo di clustering

Articoli consigliati

Conversione di foto a colori in bianco e nero in Photoshop

La modalità di fusione della luminosità in Photoshop

Facile effetto bagliore morbido con Photoshop

Photoshop CS5 Nuove funzionalità - Tutorial di riempimento consapevole del contenuto

Un modo semplice per trovare il grigio neutro in una foto con Photoshop

Le 11 migliori domande e risposte sull'intervista di Agile Coach (Aggiornamento per il 2019)

Vantaggi agili - Scopri i vantaggi utili dello sviluppo di software Agile

Caratteristiche agili - 9 Caratteristiche del metodo di sviluppo agile

Formula della domanda aggregata - Calcolatrice (esempi con modello Excel)

CRM Agile - Principi e competenze necessari per CRM Agile

Parola chiave statica in C - Come funziona la parola chiave statica in C? con esempi

Rilegatura statica e rilegatura dinamica - Come avviene il legame statico?

Costruttore statico in Java - Funzionamento e applicazione del costruttore statico

Metodo statico in PHP - Come funziona il metodo statico in PHP?

Routing statico vs routing dinamico - Le 10 differenze principali che dovresti conoscere