Tipo di data mining - Guida completa al tipo di data mining

Sommario:

Anonim

Introduzione ai tipi di data mining

Il termine "Data mining" significa che dobbiamo esaminare un ampio set di dati e estrarre i dati dallo stesso per rappresentare l'essenza di ciò che i dati vogliono dire. Molto simile a come viene fatto l'estrazione del carbone, in cui il carbone in profondità nel sottosuolo viene estratto utilizzando vari strumenti, il data mining ha anche strumenti associati per ottenere il meglio dai dati. Un'interpretazione errata molto comune con il data mining è che, è pensato come qualcosa in cui proviamo a estrarre nuovi dati, ma non sempre è vero. Si riferisce anche a qualcosa in cui proviamo a ottenere un significato dai dati che già possediamo. Pertanto, il data mining in sé è un vasto campo in cui nei prossimi paragrafi approfondiremo in modo specifico gli strumenti di Data Mining. In questo articolo, discuteremo i tipi di data mining.

Che cos'è il data mining?

Come già detto in precedenza sul data mining, il data mining è un processo in cui cerchiamo di ottenere il meglio dai dati. Gli strumenti di data mining fungono da ponte tra i dati e le informazioni dai dati. In alcuni blog, il data mining è anche definito scoperta della conoscenza. Qui vorremmo dare una breve idea sul processo di implementazione del data mining in modo che l'intuizione alla base del data mining sia chiara e che sia facile da comprendere per i lettori. Sotto il diagramma di flusso rappresenta il flusso:

Nel processo discusso sopra, ci sono strumenti per ogni livello e proveremmo a fare un tuffo profondo in quelli più importanti.

Tipi di data mining

Il data mining può essere eseguito sui seguenti tipi di dati:

1. Smoothing (Prepara i dati)

Questo particolare metodo di estrazione dei dati rientra nel genere della preparazione dei dati. L'intento principale di questa tecnica è rimuovere il rumore dai dati. Qui algoritmi come semplice esponenziale, la media mobile vengono utilizzati per rimuovere il rumore. Durante l'analisi esplorativa, questa tecnica è molto utile per visualizzare tendenze / sentimenti.

2. Aggregazione (preparare i dati)

Come suggerisce il termine, un gruppo di dati viene aggregato per ottenere maggiori informazioni. Questa tecnica viene utilizzata per fornire una panoramica degli obiettivi aziendali e può essere eseguita manualmente o utilizzando software specializzato. Questa tecnica viene generalmente utilizzata su big data, poiché i big data non forniscono le informazioni richieste nel loro insieme.

3. Generalizzazione (preparare i dati)

Ancora una volta, come suggerisce il nome, questa tecnica viene utilizzata per generalizzare i dati nel loro insieme. Ciò è diverso dall'aggregazione in un modo in cui i dati durante la generalizzazione non sono raggruppati insieme per ottenere più informazioni ma, a sua volta, l'intero set di dati è generalizzato. Ciò consentirà ad un modello di scienza dei dati di adattarsi ai nuovi punti dati.

4. Normalizzazione (preparare i dati)

In questa tecnica, viene prestata particolare attenzione ai punti dati in modo da portarli nella stessa scala per l'analisi. Ad esempio, l'età e lo stipendio di una persona rientrano in scale di misurazione diverse, quindi tracciarle su un grafico non ci aiuterà a ottenere informazioni utili sulle tendenze presenti come caratteristica collettiva. Usando la normalizzazione, possiamo portarli su una scala uguale in modo da poter eseguire il confronto da mela a mela.

5. Selezione attributo / funzione (Prepara i dati)

In questa tecnica, utilizziamo metodi per eseguire una selezione di funzionalità in modo che il modello utilizzato per addestrare i set di dati possa implicare un valore per prevedere i dati che non ha visto. Questo è molto analogo alla scelta dell'outfit giusto da un guardaroba pieno di abiti per adattarsi all'evento. Le funzionalità non rilevanti possono influire negativamente sulle prestazioni del modello, per non parlare del miglioramento delle prestazioni.

6. Classificazione (modellare i dati)

In questa tecnica di data mining trattiamo gruppi noti come "classi". In questa tecnica, utilizziamo collettivamente le funzioni selezionate (come discusso nel punto precedente) a gruppi / categorie. Ad esempio, in un negozio, se dobbiamo valutare se una persona acquisterà un prodotto o meno, ci sono "n" numero di funzionalità che possiamo utilizzare collettivamente per ottenere un risultato Vero / Falso.

7. Tracciamento del modello

Questa è una delle tecniche di base impiegate nel data mining per ottenere informazioni su tendenze / modelli che potrebbero essere esibiti dai punti dati. Ad esempio, possiamo determinare la tendenza di un aumento delle vendite durante un fine settimana o festivo anziché nei giorni feriali o nei giorni lavorativi.

8. Analisi anomala o rilevamento anomalie

Qui, come suggerisce il nome, questa tecnica viene utilizzata per trovare o analizzare valori anomali o anomalie. Valori anomali o anomalie non sono punti di dati negativi, sono solo qualcosa che si distingue dalla tendenza generale dell'intero set di dati. Sull'identificazione dei valori anomali, possiamo rimuoverli completamente dall'insieme di dati, che si verifica al termine della preparazione dei dati. Altrimenti questa tecnica viene ampiamente utilizzata nei set di dati del modello per prevedere anche i valori anomali.

9. Clustering

Questa tecnica è molto simile alla classificazione, ma l'unica differenza è che non conosciamo il gruppo in cui i punti dati cadranno dopo il raggruppamento dopo la raccolta di funzionalità. Questo metodo viene in genere utilizzato nel raggruppamento di persone per indirizzare raccomandazioni di prodotti simili.

10. Regressione

Questa tecnica viene utilizzata per prevedere la probabilità di una funzionalità con la presenza di altre funzionalità. Ad esempio, possiamo formulare la probabilità del prezzo di un articolo rispetto alla domanda, alla concorrenza e ad alcune altre caratteristiche.

11. Rete neurale

Questa tecnica si basa sul principio di come funzionano i neuroni biologici. Simile a ciò che fanno i neuroni nel corpo umano, i neuroni in una rete neurale nel lavoro di data mining agiscono anche come unità di elaborazione e collegano un altro neurone per trasmettere le informazioni lungo la catena.

12. Associazione

In questo metodo di data mining, la relazione tra le diverse funzionalità viene determinata e, a sua volta, utilizzata per trovare modelli nascosti o analisi correlate viene eseguita in base ai requisiti aziendali. Ad esempio, utilizzando l'associazione possiamo trovare funzioni correlate tra loro e quindi enfatizzare la rimozione di chiunque in modo da rimuovere alcune funzionalità ridondanti e migliorare la potenza / il tempo di elaborazione.

Conclusione

Per concludere, ci sono diversi requisiti da tenere a mente durante l'esecuzione del data mining. Bisogna stare molto attenti a ciò che dovrebbe essere l'output in modo che le tecniche corrispondenti possano essere utilizzate per raggiungere l'obiettivo. Sebbene il data mining sia uno spazio in evoluzione, abbiamo cercato di creare un elenco esaustivo per tutti i tipi di strumenti sopra il data mining per i lettori.

Articoli consigliati

Questa è una guida al tipo di data mining. Qui discutiamo l'introduzione e i 12 principali tipi di data mining. Puoi anche consultare i nostri altri articoli suggeriti:

  1. Vantaggi del data mining
  2. Architettura di data mining
  3. Metodi di data mining
  4. Strumento di data mining
  5. Tipi di modelli nel data mining