Metodi di clustering - Importanza e tecniche dei metodi di clustering

Sommario:

Anonim

Introduzione ai metodi di clustering

Questo articolo presenta una panoramica dei diversi metodi di clustering utilizzati nelle tecniche di data mining con principi diversi. Il clustering è un insieme di oggetti dati organizzati in un diverso raggruppamento logico. Raggruppamento di elementi di dati simili e assegnazione di elementi di dati simili in singoli cluster. Il clustering viene eseguito in set di dati di grandi dimensioni per l'apprendimento senza supervisione. Durante questo, eseguiamo la partizione sul set di dati in gruppi. La struttura del clustering è rappresentata come segue con sottoinsiemi. C = c1, c2… c n . Poiché i gruppi di clustering hanno oggetti simili, è necessario adottare alcune misure nei metodi di clustering per determinare le misure di distanza e somiglianza. I metodi di clustering si basano su modelli probabilistici. Il data mining richiede il clustering per consentire alla scalabilità di gestire database elevati, gestire spazio multidimensionale, gestire dati e rumore errati.

Spiegare i metodi di clustering?

Questo metodo di clustering aiuta a raggruppare dati preziosi in cluster e da questo seleziona i risultati appropriati in base a tecniche diverse. Ad esempio, nel recupero delle informazioni i risultati della query sono raggruppati in piccoli cluster e ogni cluster ha risultati irrilevanti. In base alle tecniche di clustering, sono raggruppate in categorie simili e ogni categoria è suddivisa in sottocategorie per facilitare l'esplorazione dell'output delle query. Esistono vari tipi di metodi di clustering

  • Metodi gerarchici
  • Metodi di partizionamento
  • basata densità
  • Clustering basato su modello
  • Modello basato su griglia

Di seguito è riportata una panoramica delle tecniche utilizzate nel data mining e nell'intelligenza artificiale.

1. Metodo gerarchico

Questo metodo crea un cluster partizionando in modo top-down e bottom-up. Entrambi questi approcci producono un dendrogramma che creano connettività tra di loro. Il dendrogramma è un formato simile ad un albero che mantiene la sequenza di cluster uniti. I metodi gerarchici vengono prodotti più partizioni rispetto ai livelli di somiglianza. Sono divisi in cluster gerarchici agglomerativi e cluster gerarchici divisivi. Qui viene creato un albero cluster utilizzando tecniche di fusione. Per il processo di divisione viene utilizzato il divisivo, la fusione utilizza l'agglomerato. Il clustering agglomerativo comprende:

  1. Inizialmente prendendo tutti i punti dati e considerandoli come singoli cluster, inizia dal modo dall'alto verso il basso. Questi cluster vengono uniti fino a quando non abbiamo ottenuto i risultati desiderati.
  2. I successivi due cluster simili sono raggruppati insieme per formare un enorme singolo cluster.
  3. Ancora una volta calcolando la prossimità nell'enorme cluster e unendo i cluster simili.
  4. Il passaggio finale prevede l'unione di tutti i cluster prodotti in ciascun passaggio per formare un singolo cluster finale.

2. Metodo di partizionamento:

L'obiettivo principale della partizione è il trasferimento. Riposizionano le partizioni passando da un cluster a un altro, creando così un partizionamento iniziale. Divide 'n' oggetti di dati in 'k' numero di cluster. Questo metodo partizionale è preferito più di un modello gerarchico nel riconoscimento di schemi. I seguenti criteri sono impostati per soddisfare le tecniche:

  • Ogni cluster dovrebbe avere un oggetto.
  • Ogni oggetto dati appartiene a un singolo cluster.

Le tecniche di partizione più comunemente usate sono l'algoritmo K-mean. Si dividono in cluster "K" rappresentati da centroidi. Ogni centro cluster viene calcolato come media di quel cluster e la funzione R visualizza il risultato. Questo algoritmo prevede i seguenti passaggi:

  1. Selezione casuale di oggetti K dal set di dati e forma i centri iniziali (centroidi)
  2. Successivamente assegnando la distanza euclidea tra gli oggetti e il centro medio.
  3. Assegnare un valore medio per ogni singolo cluster.
  4. Procedura di aggiornamento del centroide per ciascun cluster "k".

3. Modello di densità:

In questo modello, i cluster sono definiti localizzando regioni di maggiore densità in un cluster. Il principio principale dietro di loro si concentra su due parametri: raggio massimo del vicinato e numero minimo di punti. Il modello basato sulla densità identifica i cluster di diverse forme e rumore. Funziona rilevando i modelli stimando la posizione spaziale e la distanza dal metodo del vicino qui usato è DBSCAN (clustering spaziale basato sulla densità) che dà le mani a grandi database spaziali. Utilizzo di tre punti dati per il raggruppamento, vale a dire punti core, punti di confine e valori anomali. L'obiettivo primario è identificare i cluster e i loro parametri di distribuzione. Il processo di clustering viene interrotto con la necessità di parametri di densità. Per trovare i cluster è importante avere un parametro Funzionalità minime per cluster nel calcolo della distanza del nucleo. I tre diversi strumenti forniti da questo modello sono DBSCAN, HDBSCAN, Multi-scale.

4. Clustering basato su modello

Questo modello combina due o tre cluster insieme dalla distribuzione dei dati. L'idea alla base di questo modello è che è necessario dividere i dati in due gruppi in base al modello di probabilità (distribuzioni normali multivariate). Qui ogni gruppo è assegnato come concetti o classe. Ogni componente è definito da una funzione di densità. Per trovare il parametro in questo modello viene utilizzata la stima della massima verosimiglianza per l'adattamento della distribuzione della miscela. Ogni cluster "K" è modellato dalla distribuzione gaussiana con vettore medio µ k a due parametri e vettore di covarianza £ k .

5. Modello basato su griglia

In questo approccio, gli oggetti sono considerati uno spazio guidato partizionando lo spazio in un numero finito di celle per formare una griglia. Con l'aiuto della griglia, la tecnica di clustering viene applicata per un'elaborazione più rapida, che in genere dipende dalle celle e non dagli oggetti. I passaggi coinvolti sono:

  • Creazione della struttura della griglia
  • La densità cellulare viene calcolata per ogni cella
  • Applicazione di un meccanismo di ordinamento alle loro densità.
  • Ricerca di centri cluster e attraversamento su celle vicine per ripetere il processo.

Importanza dei metodi di clustering

  1. Avere metodi di clustering aiuta a riavviare la procedura di ricerca locale e rimuovere l'inefficienza. Il clustering aiuta a determinare la struttura interna dei dati.
  2. Questa analisi di clustering è stata utilizzata per l'analisi del modello, regione vettoriale di attrazione.
  3. Il clustering aiuta a comprendere il raggruppamento naturale in un set di dati. Il loro scopo è dare un senso alla partizione dei dati in alcuni gruppi di raggruppamenti logici.
  4. La qualità del clustering dipende dai metodi e dall'identificazione di schemi nascosti.
  5. Esse svolgono un ruolo importante in applicazioni come la ricerca economica di marketing, i weblog per identificare i modelli nelle misure di somiglianza, l'elaborazione delle immagini, la ricerca spaziale.
  6. Sono utilizzati in rilevamenti anomali per rilevare la frode con carta di credito.

Conclusione

Il clustering è considerato un compito generale per risolvere il problema che formula il problema dell'ottimizzazione. Svolge un'importanza chiave nel campo del data mining e dell'analisi dei dati. Abbiamo visto diversi metodi di clustering che dividono il set di dati dipende dai requisiti. Gran parte della ricerca si basa su tecniche tradizionali come K-medie e modelli gerarchici. Le aree del cluster vengono applicate in stati ad alta dimensione che formano un futuro ambito di ricerca.

Articolo raccomandato

Questa è stata una guida ai metodi di clustering. Qui abbiamo discusso il concetto, l'importanza e le tecniche dei metodi di clustering. Puoi anche consultare i nostri altri articoli suggeriti per saperne di più -

  1. Che cos'è ETL?
  2. Che cos'è la scienza dei dati
  3. Che cos'è Teradata?
  4. Le 6 migliori alternative AWS
  5. Clustering in Machine Learning
  6. Regressione multivariata
  7. Clustering gerarchico Clustering agglomerativo e divisivo