Presentazione del miglior confronto tra l'analisi del fattore v / s del cluster

Sommario:

Anonim

Che cos'è l'analisi del cluster

L'analisi del cluster raggruppa i dati in base alle caratteristiche che possiedono. L'analisi cluster raggruppa gli oggetti in base ai fattori che li rendono simili. L'analisi del cluster è altrimenti chiamata analisi di segmentazione o analisi di tassonomia. L'analisi dei cluster non differenzia variabili dipendenti e indipendenti. L'analisi dei cluster viene utilizzata in un'ampia varietà di campi come psicologia, biologia, statistica, data mining, riconoscimento dei modelli e altre scienze sociali.

Obiettivo dell'analisi dei cluster

L'obiettivo principale dell'analisi del cluster è quello di affrontare l'eterogeneità in ogni set di dati. Gli altri obiettivi di analisi del cluster sono

  • Descrizione della tassonomia : identificazione dei gruppi all'interno dei dati
  • Semplificazione dei dati - La capacità di analizzare gruppi di osservazioni simili anziché tutte le singole osservazioni
  • Generazione o verifica di ipotesi - Sviluppa ipotesi in base alla natura dei dati o per verificare l'ipotesi precedentemente dichiarata
  • Identificazione delle relazioni - La struttura semplificata dall'analisi dei cluster che descrive le relazioni

Esistono due scopi principali dell'analisi dei cluster: comprensione e utilità.

Nella circostanza della comprensione, l'analisi dei cluster raggruppa oggetti che condividono alcune caratteristiche comuni

Ai fini dell'utilità, l'analisi dei cluster fornisce le caratteristiche di ciascun oggetto dati ai cluster a cui appartengono.

L'analisi dei cluster va di pari passo con l'analisi dei fattori e l'analisi discriminante.

Prima di iniziare, dovresti porti alcune domande sull'analisi dei cluster

  • Quali variabili sono rilevanti?
  • La dimensione del campione è sufficiente?
  • I valori anomali possono essere rilevati e devono essere rimossi?
  • Come dovrebbe essere misurata la somiglianza degli oggetti?
  • I dati dovrebbero essere standardizzati?

Tipi di cluster

Esistono tre tipi principali di clustering

  • Clustering gerarchico - Che contiene il metodo Agglomerativo e Divisivo
  • Clustering parziale - Contiene K-Me, Fuzzy K-Me, Isodata sotto di essa
  • Clustering basato sulla densità - Ha Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed sotto di esso

Presupposti nell'analisi dei cluster

Ci sono sempre due ipotesi nell'analisi dei cluster

  • Si presume che il campione sia un rappresentante della popolazione
  • Si presume che le variabili non siano correlate. Anche se le variabili sono correlate, rimuovere le variabili correlate o utilizzare misure di distanza che compensano la correlazione.

Passaggi nell'analisi dei cluster

    • Passaggio 1: definire il problema
    • Passaggio 2: decidere la misura di somiglianza appropriata
    • Passaggio 3: decidere come raggruppare gli oggetti
    • Passaggio 4: decidere il numero di cluster
    • Passaggio 5: interpretare, descrivere e convalidare il cluster

Analisi del cluster in SPSS

In SPSS puoi trovare l'opzione di analisi del cluster nell'opzione Analizza / Classifica. In SPSS sono disponibili tre metodi per l'analisi dei cluster: K-Means Cluster, Hierarchical Cluster e Two Step Cluster.

Il metodo cluster K-Means classifica un determinato set di dati attraverso un numero fisso di cluster. Questo metodo è facile da capire e fornisce il miglior output quando i dati sono ben separati l'uno dall'altro.

L'analisi del cluster in due passaggi è uno strumento progettato per gestire set di dati di grandi dimensioni. Crea cluster su variabili sia categoriche che continue.

Il cluster gerarchico è il metodo di analisi del cluster più comunemente usato. Combina i casi in cluster omogenei riunendoli attraverso una serie di passaggi sequenziali.

L'analisi dei cluster gerarchici contiene tre passaggi

  • Calcola la distanza
  • Collega i cluster
  • Scegliere una soluzione selezionando il giusto numero di cluster

Di seguito sono riportati i passaggi per eseguire l'analisi del cluster gerarchico in SPSS.

  • Il primo passo è selezionare le variabili che devono essere raggruppate. La seguente finestra di dialogo te lo spiega
  • Facendo clic sull'opzione statistica nella finestra di dialogo sopra, si otterrà la finestra di dialogo in cui si desidera specificare l'output
  • Nelle finestre di dialogo, aggiungi il Dendrogram. Dendrogram è la rappresentazione grafica del metodo di analisi dei cluster gerarchici. Mostra come i cluster vengono combinati in ogni fase fino a formare un singolo cluster.
  • Il metodo della finestra di dialogo è cruciale. Puoi menzionare la distanza e il metodo di raggruppamento qui. In SPSS ci sono tre misure per intervallo, conteggi e dati binari.
  • La distanza euclidea quadrata è la somma delle differenze quadrate senza prendere la radice quadrata.
  • Nei conteggi è possibile selezionare tra la misura Chi Square e Phi Square
  • Nella sezione binaria hai molte opzioni da scegliere. La distanza euclidea quadrata è l'opzione migliore da usare.
  • Il prossimo passo è scegliere il metodo del cluster. Si consiglia sempre di utilizzare Single Linkage o il vicino più vicino in quanto aiuta facilmente a identificare i valori anomali. Dopo aver identificato gli outlier, puoi usare il metodo di Ward.
  • L'ultimo passo è la standardizzazione

Critiche all'analisi dei cluster

Le critiche più comuni sono elencate di seguito

  • È descrittivo, teorico e non inferenziale.
  • Produrrà cluster indipendentemente dall'esistenza effettiva di qualsiasi struttura
  • Non può essere ampiamente utilizzato in quanto dipende totalmente dalle variabili utilizzate come base per la misura della somiglianza

Che cos'è l'analisi fattoriale?

L'analisi fattoriale è un'analisi esplorativa che aiuta a raggruppare variabili simili in dimensioni. Può essere utilizzato per semplificare i dati riducendo le dimensioni delle osservazioni. L'analisi fattoriale ha diversi metodi di rotazione.

L'analisi fattoriale viene utilizzata principalmente a fini di riduzione dei dati.

Esistono due tipi di analisi fattoriale: esplorativa e confermativa

  • Il metodo esplorativo viene utilizzato quando non si dispone di un'idea predefinita sulle strutture o dimensioni in un insieme di variabili.
  • Il metodo di conferma viene utilizzato quando si desidera verificare ipotesi specifiche sulle strutture o dimensioni in un insieme di variabili.

Obiettivi dell'analisi fattoriale

Esistono due obiettivi principali dell'analisi fattoriale che è menzionato di seguito

  • Identificazione dei fattori sottostanti - Ciò include il raggruppamento di variabili in insiemi omogenei, la creazione di nuove variabili e la conoscenza delle categorie
  • Screening delle variabili - È utile nella regressione e identifica i raggruppamenti per consentire di selezionare una variabile che ne rappresenta molte.

Ipotesi di analisi fattoriale

Ci sono quattro ipotesi principali di analisi fattoriale che sono menzionate di seguito

  • I modelli si basano generalmente su relazioni lineari
  • Presuppone che i dati raccolti siano ridimensionati in base all'intervallo
  • La multicollinearità nei dati è auspicabile poiché l'obiettivo è scoprire l'insieme correlato di variabili
  • I dati dovrebbero essere aperti e reattivi per l'analisi dei fattori. Non dovrebbe essere in modo tale che una variabile sia correlata solo a se stessa e non esiste alcuna correlazione con qualsiasi altra variabile. L'analisi fattoriale non può essere eseguita su tali dati.

Tipi di factoring

  • Fattorizzazione dei componenti principali - Metodo più comunemente usato in cui vengono calcolati i pesi dei fattori per estrarre la varianza massima possibile e continua fino a quando non rimane alcuna varianza significativa.
  • Analisi dei fattori canonici : trova i fattori che hanno la più alta correlazione canonica con le variabili osservate
  • Analisi dei fattori comuni : ricerca il numero minimo di fattori che possono spiegare la varianza comune di un insieme di variabili
  • Factoring delle immagini : basato sulla matrice di correlazione in cui ciascuna variabile è prevista dalle altre utilizzando la regressione multipla
  • Alpha Factoring : massimizza l'affidabilità dei fattori
  • Modello di regressione fattoriale - Combinazione di modello fattoriale e modello di regressione i cui fattori sono parzialmente noti

Criteri di analisi fattoriale

  1. Criteri autovalori

  • Rappresenta la quantità di varianza nelle variabili originali collegata a un fattore
  • La somma del quadrato dei caricamenti dei fattori di ciascuna variabile su un fattore rappresenta l'autovalore
  • Vengono mantenuti fattori con autovalori maggiori di 1, 0
  1. Criteri di trama del ghiaione

  • Un diagramma degli autovalori rispetto al numero di fattori, in ordine di estrazione.
  • La forma della trama determina il numero di fattori
  1. Percentuale di criteri di varianza

  • Il numero di fattori estratti viene scoperto in modo tale che la percentuale crescente di varianza estratta dai fattori raggiunga il livello di soddisfazione.
  1. Criteri del test di significatività

  • Viene rilevata l'importanza statistica degli autovalori separati e vengono conservati solo quei fattori statisticamente significativi

L'analisi fattoriale viene utilizzata in vari campi come psicologia, sociologia, scienze politiche, istruzione e salute mentale.

Analisi fattoriale in SPSS

In SPSS l'opzione di analisi fattoriale è disponibile in Analizza à Riduzione dimensione à Fattore

  • Inizia aggiungendo le variabili all'elenco della sezione variabili
  • Fai clic sulla scheda Descrittiva e aggiungi alcune statistiche in base alle quali vengono verificati i presupposti dell'analisi fattoriale.
  • Fai clic sull'opzione Estrazione che ti permetterà di scegliere il metodo di estrazione e tagliare il valore per l'estrazione
  • Principal Components (PCA) è il metodo di estrazione predefinito che estrae anche combinazioni lineari non correlate delle variabili. La PCA può essere utilizzata quando una matrice di correlazione è singolare. È molto simile all'analisi della correlazione canonica in cui il primo fattore ha la massima varianza e i seguenti fattori spiegano una porzione minore della varianza.
  • La seconda analisi più generale è il factoring dell'asse principale. Identifica i costrutti latenti dietro le osservazioni.
  • Il prossimo passo è selezionare un metodo di rotazione. Il metodo più frequentemente utilizzato è Varimax. Questo metodo semplifica l'interpretazione dei fattori.
  • Il secondo metodo è Quartimax. Questo metodo ruota i fattori per minimizzare il numero di fattori. Semplifica l'interpretazione della variabile osservata.
  • Il prossimo metodo è Equamax che è una combinazione dei due metodi precedenti.
  • Nella finestra di dialogo facendo clic su "opzioni" è possibile gestire i valori mancanti
  • Prima di salvare i risultati nel set di dati, eseguire innanzitutto l'analisi dei fattori e verificare le ipotesi e confermare che i risultati siano significativi e utili.

Analisi cluster vs analisi fattoriale

Sia l'analisi dei cluster che l'analisi dei fattori sono un metodo di apprendimento senza supervisione utilizzato per la segmentazione dei dati. Molti ricercatori che sono nuovi in ​​questo campo ritengono che l'analisi dei cluster e l'analisi dei fattori siano simili. Potrebbe sembrare simile ma differiscono in molti modi. Le differenze tra analisi dei cluster e analisi dei fattori sono elencate di seguito

  • Obbiettivo

L'obiettivo dell'analisi dei cluster e dei fattori è diverso. L'obiettivo dell'analisi dei cluster è di dividere le osservazioni in gruppi omogenei e distinti. L'analisi fattoriale d'altra parte spiega l'omogeneità delle variabili risultanti dalla somiglianza dei valori.

  • Complessità

La complessità è un altro fattore su cui l'analisi cluster e fattore differiscono. La dimensione dei dati influisce sull'analisi in modo diverso. Se la dimensione dei dati è troppo grande, diventa intrattabile dal punto di vista computazionale nell'analisi dei cluster.

  • Soluzione

La soluzione a un problema è più o meno simile nell'analisi dei fattori e dei cluster. Ma l'analisi fattoriale fornisce una soluzione migliore al ricercatore in un aspetto migliore. L'analisi dei cluster non produce i migliori risultati poiché tutti gli algoritmi nell'analisi dei cluster sono inefficienti dal punto di vista computazionale.

  • applicazioni

L'analisi fattoriale e l'analisi cluster sono applicate in modo diverso ai dati reali. L'analisi fattoriale è adatta per semplificare modelli complessi. Riduce il grande insieme di variabili a un insieme di fattori molto più piccolo. Il ricercatore può sviluppare una serie di ipotesi ed eseguire analisi fattoriali per confermare o smentire queste ipotesi.

L'analisi del cluster è adatta per classificare gli oggetti in base a determinati criteri. Il ricercatore può misurare alcuni aspetti di un gruppo e dividerli in categorie specifiche usando l'analisi dei cluster.

Ci sono anche molte altre differenze che sono menzionate di seguito

  • L'analisi del cluster tenta di raggruppare i casi mentre l'analisi dei fattori tenta di raggruppare le funzionalità.
  • L'analisi del cluster viene utilizzata per trovare gruppi più piccoli di casi rappresentativi di un dato nel suo insieme. L'analisi fattoriale viene utilizzata per trovare un gruppo più piccolo di funzionalità che sono rappresentative delle funzionalità originali dei set di dati.
  • La parte più importante dell'analisi dei cluster è trovare il numero di cluster. Fondamentalmente i metodi di clustering sono divisi in due: metodo agglomerativo e metodo di partizionamento. Il metodo agglomerativo inizia con ciascun caso nel proprio cluster e si interrompe quando viene raggiunto un criterio. Il metodo di partizionamento inizia con tutti i casi in un cluster.
  • L'analisi fattoriale viene utilizzata per scoprire una struttura sottostante in un insieme di dati.

Conclusione

Spero che questo articolo ti abbia aiutato a comprendere le basi dell'analisi del cluster e dell'analisi fattoriale e le differenze tra i due.

Corsi correlati: -

  1. Corso di analisi del cluster