Analisi dei cluster gerarchici Guida all'analisi dei cluster gerarchici

Panoramica dell'analisi dei cluster gerarchici

Prima di andare avanti e comprendere l'analisi dei cluster gerarchici, proviamo a capire cos'è un cluster? E cos'è l'analisi dei cluster? Un cluster è una raccolta di oggetti dati; i punti dati all'interno di un cluster sono più simili tra loro e dissimili dai punti dati nell'altro cluster. L'analisi del cluster è fondamentalmente un raggruppamento di questi punti dati nel cluster. Il clustering è un tipo di algoritmo di machine learning senza supervisione, in cui non esistono set di dati con etichetta di training. Esistono vari tipi di analisi del clustering, uno di questi è il clustering gerarchico.

Il clustering gerarchico aiuterà a creare cluster in un ordine / gerarchia adeguati. Esempio: l'esempio quotidiano più comune che vediamo è il modo in cui ordiniamo i nostri file e cartelle nel nostro computer secondo una corretta gerarchia.

Tipi di cluster gerarchici

Il clustering gerarchico è ulteriormente classificato in due tipi, ad esempio cluster agglomerativo e Divisive Clustering (DIANA)

Cluster agglomerativo

In questo caso di clustering, la decomposizione gerarchica viene eseguita con l'aiuto della strategia bottom-up in cui inizia creando cluster atomici (piccoli) aggiungendo un oggetto dati alla volta e quindi li unisce per formare un grande cluster alla fine, in cui questo cluster soddisfa tutte le condizioni di terminazione. Questa procedura è iterativa fino a quando tutti i punti dati non vengono portati in un unico grande cluster.

AGNES (AGglomerative NESting) è un tipo di cluster agglomerativo che combina gli oggetti dati in un cluster in base alla somiglianza. Il risultato di questo algoritmo è un strutturato ad albero chiamato Dendrogram. Qui utilizza le metriche della distanza per decidere quali punti dati devono essere combinati con quale cluster. Fondamentalmente, costruisce una matrice di distanza e controlla la coppia di cluster con la distanza più piccola e li combina.

La figura sopra mostra il clustering Agglomerativo vs. Divisivo

Sulla base di come viene misurata la distanza tra ciascun cluster possiamo avere 3 metodi diversi

Collegamento singolo : dove la distanza più breve tra i due punti in ciascun cluster è definita come la distanza tra i cluster.
Collegamento completo : in questo caso, considereremo la distanza più lunga tra i punti in ciascun cluster come la distanza tra i cluster.
Collegamento medio: qui prenderemo la media tra ciascun punto in un cluster e ogni altro punto nell'altro cluster.

Ora discutiamo dei punti di forza e di debolezza di AGNES; questo algoritmo ha una complessità temporale di almeno O (n ² ) quindi non funziona bene nel ridimensionamento e un altro grande svantaggio è che qualsiasi cosa sia stata fatta non può mai essere annullata, cioè se raggruppiamo erroneamente un cluster nella fase precedente di l'algoritmo quindi non saremo in grado di cambiare il risultato / modificarlo. Ma questo algoritmo ha anche un lato positivo poiché ci sono molti cluster più piccoli che possono essere formati, può essere utile nel processo di scoperta e produce un ordinamento di oggetti che è molto utile nella visualizzazione.

Divisive Clustering (DIANA)

Diana in sostanza è l'acronimo di Divisive Analysis; questo è un altro tipo di clustering gerarchico in cui fondamentalmente funziona secondo il principio dell'approccio top-down (inverso di AGNES) in cui l'algoritmo inizia formando un cluster di grandi dimensioni e divide in modo ricorsivo il cluster più diverso in due e continua fino a quando ' tutti i punti di dati simili appartengono ai rispettivi cluster. Questi algoritmi di divisione generano gerarchie altamente accurate rispetto all'approccio agglomerativo, ma sono costose dal punto di vista computazionale.

La figura sopra mostra il processo di clustering Divisive passo dopo passo

Clustering gerarchico multifase

Per migliorare la qualità dei cluster generati dalle suddette tecniche di clustering gerarchico, integriamo le nostre tecniche di clustering gerarchico con altre tecniche di clustering; questo si chiama clustering multifase. I diversi tipi di clustering multifase sono i seguenti:

BIRCH (Riduzione e clustering iterativi bilanciati mediante gerarchie)
ROCK (RObust Clustering tramite collegamenti)
CAMALEONTE

1. Riduzione e clustering iterativi bilanciati mediante gerarchie

Questo metodo viene utilizzato principalmente per il raggruppamento di enormi quantità di dati numerici integrando il nostro cluster gerarchico / micro nella fase iniziale e il clustering macro / il partizionamento iterativo nella fase successiva. Questo metodo aiuta a superare il problema di scalabilità riscontrato in AGNES e l'incapacità di annullare ciò che è stato fatto prima del passaggio. BIRCH utilizza due concetti importanti nel suo algoritmo

un. Funzionalità di clustering (aiuta a riepilogare il cluster)

CF è definito come (n- numero di punti dati nel cluster, la somma lineare di n punti, la somma quadrata di n punti). La memorizzazione della funzione di un cluster in questo modo aiuta a evitare la memorizzazione di informazioni dettagliate su di esso e CF è di natura additiva per diversi cluster.

CF ₁ + CF ₂ = 1+ n ₂, LS ₁ + LS ₂, SS ₁ + SS ₂ >

b. Clustering feature tree (aiuta a rappresentare un cluster come una gerarchia)

L'albero CF è un albero bilanciato con fattore di ramificazione B (numero massimo di figli) e soglia T (numero massimo di sottoclassi che possono essere memorizzati nei nodi foglia).

L'algoritmo funziona fondamentalmente in 2 fasi; nella fase 1 esegue la scansione del database e crea un albero CF in memoria e nella fase 2 utilizza l'algoritmo di clustering che aiuta a raggruppare i nodi foglia rimuovendo gli outlier (cluster sparsi) e raggruppa il cluster con la massima densità. L'unico inconveniente di questo algoritmo è che gestisce solo il tipo di dati numerici.

2. Clustering robusto tramite link

Il collegamento è definito come il numero di vicini comuni tra due oggetti. L'algoritmo ROCK è un tipo di algoritmo di clustering che utilizza questo concetto di collegamento con il set di dati categoriale. Come sappiamo che gli algoritmi di clustering misurati in base alla distanza non forniscono cluster di alta qualità per il set di dati categoriale, ma nel caso di ROCK, considera anche i quartieri dei punti dati, ovvero se due punti dati hanno lo stesso vicinato, allora lo sono molto probabilmente appartiene allo stesso cluster. L'algoritmo costruirà un grafico sparso nel primo passo tenendo conto della matrice di somiglianza con il concetto di vicinato e soglia di somiglianza. Nel secondo passaggio, utilizza la tecnica di raggruppamento gerarchico agglomerativo sul grafico rado.

3. Camaleonte

Questo tipo di algoritmo di clustering gerarchico utilizza il concetto di modellazione dinamica. Ti chiedi perché si chiama dinamico? Si chiama dinamico perché ha la capacità di adattarsi automaticamente alle caratteristiche interne del cluster valutando la somiglianza del cluster, ovvero quanto siano ben collegati i punti dati all'interno di un cluster e in prossimità dei cluster. Uno degli svantaggi del camaleonte è che il costo di elaborazione è troppo elevato (O (n ² ) per n oggetti è la complessità temporale peggiore).

Fonte immagine - Google

Conclusione

In questo articolo, abbiamo imparato cos'è un cluster e cos'è l'analisi del cluster, diversi tipi di tecniche di clustering gerarchico i loro vantaggi e svantaggi. Ognuna delle tecniche di cui abbiamo discusso ha i suoi aspetti positivi e negativi, quindi prima di procedere con un algoritmo dobbiamo comprendere i nostri dati con un'adeguata analisi dei dati esplorativi e scegliere l'algoritmo con cautela.

Articoli consigliati

Questa è una guida all'analisi dei cluster gerarchici. Qui discutiamo la panoramica, il clustering agglomerativo, il clustering divisivo (DIANA) e il clustering gerarchico multifase. Puoi anche consultare i seguenti articoli per saperne di più

Clustering gerarchico in R
Algoritmo di clustering
cluster
Metodi di clustering
Clustering in Machine Learning
Clustering gerarchico Clustering agglomerativo e divisivo

Analisi dei cluster gerarchici Guida all'analisi dei cluster gerarchici

Sommario:

Panoramica dell'analisi dei cluster gerarchici

Tipi di cluster gerarchici

Cluster agglomerativo

Divisive Clustering (DIANA)

Clustering gerarchico multifase

1. Riduzione e clustering iterativi bilanciati mediante gerarchie

2. Clustering robusto tramite link

3. Camaleonte

Conclusione

Articoli consigliati

VBA Active Cell - Guida agli esempi di Excel VBA Active Cell

Array VBA - Tipi di array in VBA e come usarli?

VBA ASC - Come utilizzare la funzione ASC in VBA di Excel? (esempi)

Commenti sul blocco VBA - Commentare un blocco di codice in Excel VBA

Riempimento automatico VBA - Come utilizzare la funzione di riempimento automatico VBA di Excel?

Come scaricare foto dalla fotocamera con Adobe Bridge

Photoshop Advanced Blending - The Blend If Sliders

Lo strumento bacchetta magica - Photoshop Selections

Utilizzo dello strumento Ritaglia prospettiva in Photoshop

Come rimuovere le rughe in Photoshop - Photoshop Essentials

ISBLANK in Excel (formula, esempi) - Come utilizzare la funzione ISBLANK?

Ciclo di vita ITIL - Guida completa al ciclo di vita di ITIL

ITIL Service Design - Principi e processo di ITIL Service Design

Strategia di servizio ITIL - Varie fasi ed elementi di ITIL

Funzionamento del servizio ITIL Principi e processo di funzionamento del servizio ITIL