Che cos'è Data Analytics?
L'analisi dei dati è un processo per scoprire approfondimenti chiave e conclusioni preziose da una grande quantità di dati raccolti o raccolti da varie fonti per supportare il processo decisionale. Maggiore potenza computazionale, alta velocità di elaborazione. L'avvento di interfacce interattive per l'utente finale e la comprovata efficienza del paradigma di elaborazione distribuita per gestire grossi blocchi di dati hanno reso l'analisi dei dati in grado di avanzare in tutti i settori, in particolare in Retail, Banking, Healthcare, Logistics, Defence, Public Administration ecc.
Tipi di analisi dei dati
Il processo di analisi dei dati è suddiviso soggettivamente in tre tipi in base allo scopo di analizzare i dati come
- Analisi descrittiva
- Analisi predittiva
- Analitica prescrittiva
Le funzionalità dei tipi di Analytics sopra elencati sono descritte di seguito:
1. Analisi descrittiva
L'analisi descrittiva si concentra sul riepilogo dei dati passati per ricavare inferenze. Include le misure più comunemente usate per caratterizzare quantitativamente la distribuzione di dati storici
- Misure di tendenza centrale : media, mediana, quartili, modalità.
- Misure di variabilità o diffusione - Range, Inter-Quartile Range, Percentiles.
In tempi recenti, le difficoltà e le limitazioni legate alla raccolta, archiviazione e comprensione di enormi quantità di dati vengono superate con il processo di inferenza statistica. Le inferenze generalizzate sulle statistiche del set di dati sulla popolazione sono dedotte usando metodi di campionamento insieme all'applicazione della teoria del limite centrale.
Un'emittente di notizie di spicco raccoglie i dettagli del voto degli elettori scelti casualmente all'uscita di una stazione elettorale il giorno delle elezioni per ricavare inferenze statistiche sulle preferenze dell'intera popolazione.
Il campionamento ripetuto del set di dati della popolazione produce blocchi di campioni con dimensioni del campione sufficientemente grandi. Il campionamento a gruppi è generalmente preferito per generare rappresentanti ben stratificati e imparziali del set di dati della popolazione. La misura statistica di interesse viene calcolata sui blocchi di dati campionati per ottenere una distribuzione dei valori statistici del campione chiamata distribuzione campionaria. Le caratteristiche della distribuzione campionaria sono correlate a quelle del set di dati sulla popolazione usando la teoria del limite centrale.
2. Analisi predittiva
L'analisi predittiva sfrutta i modelli nei dati storici o passati per stimare i risultati futuri, identificare le tendenze, scoprire potenziali rischi e opportunità o prevedere il comportamento del processo. Poiché i casi d'uso della previsione sono di natura plausibile, questi approcci impiegano modelli probabilistici per misurare la probabilità di tutti i possibili risultati.
Il chatBot nel portale del servizio clienti dell'azienda finanziaria apprende in modo proattivo l'intenzione o la necessità dei clienti di basarsi sulle sue attività passate nel suo dominio web. Con il contesto previsto, chatBot conversa in modo interattivo con il cliente per fornire rapidamente servizi apt e ottenere una migliore soddisfazione del cliente.
Oltre agli scenari di estrapolazione per prevedere cosa accadrà in futuro in base ai dati passati disponibili, ci sono poche applicazioni che indovinano voci di dati perse con l'aiuto dei campioni di dati disponibili. Questa approssimazione dei valori mancanti all'interno dell'intervallo di dati forniti è tecnicamente definita Interpolazione.
Una potente applicazione di editor di immagini supporta la ricostruzione di parti mancanti della trama a causa del testo imposto dall'interpolazione della funzione nel blocco perso. La funzione caratteristica può essere interpretata come una notazione matematica di motivi nella trama di un'immagine distorta.
I fattori significativi che influenzano la scelta di modelli / strategie predittivi sono:
- Precisione di previsione: trasmette il grado di vicinanza tra un valore previsto e un valore reale. Una varianza inferiore della differenza tra valore previsto e valore reale implica una maggiore precisione del modello predittivo.
- Velocità di previsione: è prioritario nelle applicazioni di tracciamento in tempo reale
- Tasso di apprendimento del modello: dipende dalla complessità del modello e dai calcoli coinvolti nel calcolo dei parametri del modello.
3. Analitica prescrittiva
Prescriptive Analytics utilizza le conoscenze scoperte come parte dell'analisi sia descrittiva che predittiva per raccomandare un corso di azioni consapevole del contesto. Tecniche statistiche avanzate e metodi di ottimizzazione ad alta intensità computazionale sono implementati per comprendere la distribuzione delle previsioni stimate.
In termini precisi, l'impatto e il beneficio di ciascun risultato, che vengono stimati durante l'analisi predittiva, vengono valutati per prendere decisioni euristiche e sensibili al tempo per un determinato insieme di condizioni.
Una società di consulenza di borsa esegue analisi SWOT (Forza, Debolezza, Opportunità e Minaccia) sui prezzi previsti per le azioni nel portafoglio degli investitori e raccomanda le migliori opzioni Buy-Sell ai suoi clienti.
Flusso di processo in Data Analytics
Il processo di analisi dei dati prevede varie fasi di elaborazione dei dati, come spiegato di seguito:
1. Estrazione dei dati
L'ingestione di dati da più origini dati di vari tipi, tra cui pagine Web, database, applicazioni legacy, produce set di dati di input di diversi formati. I formati di dati immessi nel flusso di analisi dei dati possono essere ampiamente classificati come
- I dati strutturati hanno una chiara definizione dei tipi di dati insieme alla lunghezza o ai delimitatori di campo associati. Questo tipo di dati può essere facilmente interrogato come il contenuto archiviato nel database relazionale (RDBMS)
- I dati semi-strutturati mancano di una precisa definizione del layout ma gli elementi di dati possono essere identificati, separati e raggruppati in base a uno schema standard o ad altre regole dei metadati. Un file XML utilizza la codifica per contenere i dati mentre l'oggetto Javascript Notation File (JSON) contiene i dati in coppie nome-valore. Database NoSQL (non solo SQL) come MongoDB, ma anche la base del divano viene utilizzata per archiviare dati semi-strutturati.
- I dati non strutturati includono conversazioni sui social media, immagini, clip audio ecc. I metodi di analisi dei dati tradizionali non riescono a comprendere questi dati. I dati non strutturati vengono archiviati in data lake.
L'implementazione dell'analisi dei dati per dati strutturati e semi-strutturati è incorporata in vari strumenti ETL come Ab Initio, Informatica, Datastage e alternative open source come Talend.
2. Pulizia e trasformazione dei dati
La pulizia dei dati analizzati viene eseguita per garantire la coerenza e la disponibilità dei dati rilevanti per le fasi successive di un flusso di processo. Le principali operazioni di pulizia nell'analisi dei dati sono:
- Rilevamento ed eliminazione di valori anomali nei volumi di dati
- Rimozione dei duplicati nel set di dati
- Gestire le voci mancanti nei set di dati con la comprensione della funzionalità o dei casi d'uso
- Le convalide per i valori dei campi consentiti nei set di dati come "31-febbraio" non possono essere un valore valido in nessuno dei campi data.
I dati puliti vengono trasformati in un formato adatto per analizzare i dati. Le trasformazioni di dati includono
- Un filtro di record di dati indesiderati.
- Unendo i dati recuperati da diverse fonti.
- Aggregazione o raggruppamento di dati
- Typecasting dei dati
3. Derivazione KPI / Insight
Data mining, metodi di apprendimento profondo sono utilizzati per valutare gli indicatori chiave di prestazione (KPI) o ricavare informazioni preziose dai dati puliti e trasformati. Basata sull'obiettivo dell'analisi, l'analisi dei dati viene eseguita utilizzando varie tecniche di riconoscimento dei modelli come il clustering di k-medie, la classificazione SVM, i classificatori bayesiani ecc. E i modelli di apprendimento automatico come modelli Markov, Gaussian Mixture Models (GMM) ecc.
I modelli probabilistici nella fase di addestramento apprendono i parametri ottimali del modello e nella fase di validazione, il modello viene testato utilizzando test di convalida incrociata k-fold per evitare errori di adattamento eccessivo e insufficiente.
Il linguaggio di programmazione più comunemente usato per l'analisi dei dati è R e Python. Entrambi hanno un ricco set di librerie (SciPy, NumPy, Pandas) di provenienza aperta per eseguire complesse analisi dei dati.
4. Visualizzazione dei dati
La visualizzazione dei dati è il processo di presentazione chiara ed efficace di modelli scoperti, conclusioni derivate dai dati utilizzando grafici, grafici, dashboard e grafici.
- Gli strumenti di reporting dei dati come QlikView, Tableau ecc., Visualizzano KPI e altre metriche derivate a vari livelli di granularità.
- Gli strumenti di reporting consentono agli utenti finali di creare report personalizzati con opzioni pivot e drill-down utilizzando interfacce di trascinamento della selezione intuitive
- Le librerie interattive di visualizzazione dei dati come D3.js (documenti basati sui dati), HTML5-Anycharts ecc. Vengono utilizzate per aumentare la capacità di esplorare i dati analizzati
Articoli consigliati
Questa è stata una guida a Cos'è Data Analytics. Qui abbiamo discusso il diverso tipo di analisi dei dati con il flusso del processo. Puoi anche consultare altri articoli suggeriti per saperne di più -
- Analista di dati Intervista Domande e risposte
- Che cos'è la visualizzazione dei dati?
- Che cos'è l'analisi dei big data?
- Che cos'è Minitab?