Differenza tra data science e machine learning

La scienza dei dati è un'estensione evolutiva delle statistiche in grado di gestire le enormi quantità di con l'aiuto delle tecnologie informatiche. L'apprendimento automatico è un campo di studio che offre ai computer la possibilità di apprendere senza essere esplicitamente programmati. La scienza dei dati copre una vasta gamma di tecnologie di dati tra cui SQL, Python, R e Hadoop, Spark, ecc. L'apprendimento automatico è visto come un processo, può essere definito come il processo attraverso il quale un computer può lavorare in modo più accurato mentre raccoglie e impara dai dati che viene fornito.

Confronto diretto tra scienza dei dati e machine learning (infografica)

Di seguito è riportato il top 5 confronto tra Data Science vs Machine Learning

Differenza chiave tra data science e machine learning

Di seguito è la differenza tra Data Science e Machine Learning:

  • Componenti : come accennato in precedenza, i sistemi di Data Science coprono l'intero ciclo di vita dei dati e in genere hanno componenti che coprono quanto segue:
    • Raccolta e profilazione dei dati: pipeline ETL (estrarre carico di trasformazione) e lavori di profilazione
    • Elaborazione distribuita: distribuzione ed elaborazione dei dati scalabili orizzontalmente
    • Automatizzazione dell'intelligence: modelli ML automatizzati per risposte online (previsione, raccomandazioni) e rilevamento di frodi.
    • Visualizzazione dei dati: esplora visivamente i dati per ottenere una migliore intuizione dei dati. Parte integrante della modellazione ML.
    • Dashboard e BI: dashboard predefiniti con funzionalità slice and dice per gli stakeholder di livello superiore.
    • Ingegneria dei dati: assicurarsi che i dati caldi e freddi siano sempre accessibili. Copre il backup dei dati, la sicurezza, il ripristino di emergenza
    • Distribuzione in modalità di produzione: migra il sistema in produzione con pratiche standard del settore.
    • Decisioni automatizzate: ciò include l'esecuzione della logica di business in cima ai dati o un modello matematico complesso addestrato utilizzando qualsiasi algoritmo ML.

La modellazione di Machine Learning inizia con i dati esistenti e i componenti tipici sono i seguenti:

  • Comprendi il problema: assicurati che il modo più efficace per risolvere il problema sia ML. Si noti che non tutti i problemi risolvibili con ML.
  • Esplora dati: per ottenere un'intuizione delle funzionalità da utilizzare nel modello ML, ciò potrebbe richiedere più di una iterazione, in questo caso la visualizzazione dei dati svolge un ruolo fondamentale.
  • Preparare i dati - Questa è una fase importante con un forte impatto sull'accuratezza del modello ML. Gestisce problemi di dati come cosa fare con i dati mancanti per una funzione? Sostituisci con valore fittizio come zero o media di altri valori o elimina la funzione dal modello ?. Le funzionalità di ridimensionamento, che assicurano che i valori di tutte le funzionalità siano nella stessa gamma, sono fondamentali per molti modelli ML. Molte altre tecniche come la generazione di funzionalità polinomiali vengono utilizzate qui per ricavare nuove funzionalità.
  • Seleziona un modello e un treno: il modello viene selezionato in base a un tipo di problema (previsione o classificazione, ecc.) E al tipo di set di funzionalità (alcuni algoritmi funzionano con un numero limitato di istanze con un numero elevato di funzionalità e altre in altri casi) .
  • Misura delle prestazioni - In Data Science, le misure delle prestazioni non sono standardizzate, cambieranno caso per caso. Tipicamente sarà un'indicazione di tempestività dei dati, qualità dei dati, capacità di query, limiti di concorrenza nell'accesso ai dati, capacità di visualizzazione interattiva ecc.

Nei modelli ML, le misure delle prestazioni sono cristalline.Ogni algoritmo avrà una misura per indicare quanto il modello descriva bene o male i dati di allenamento forniti.Ad esempio, RME (Root Mean Square Error) viene utilizzato nella regressione lineare come indicazione di un errore nel modello.

  • Metodologia di sviluppo - I progetti di Data Science sono allineati più come un progetto di ingegneria con pietre miliari chiaramente definite, ma i progetti di ML sono più simili alla ricerca, che iniziano con un'ipotesi e provano a dimostrarlo con i dati disponibili.
  • Visualizzazione - La visualizzazione in generale Data Science rappresenta i dati direttamente utilizzando qualsiasi grafico popolare come barra, grafico a torta, ecc. Ma in ML, le visualizzazioni utilizzate rappresentano anche un modello matematico di dati di allenamento. Ad esempio, la visualizzazione della matrice di confusione di una classificazione multiclasse aiuta a identificare rapidamente false aspetti positivi e negativi.
  • Lingue: linguaggi di sintassi simili a SQL e SQL (HiveQL, Spark SQL, ecc.) Sono i linguaggi più utilizzati nel mondo della scienza dei dati, ma sono anche in uso linguaggi di scripting per l'elaborazione dei dati popolari come Perl, awk, sed. ampiamente usato (Java per Hadoop, Scala per Spark ecc.) categoria usata.

Python e R sono il linguaggio più utilizzato nel mondo del machine learning. Oggi Python sta guadagnando più slancio poiché i nuovi ricercatori di deep learning vengono convertiti principalmente in python, mentre SQL svolge un ruolo importante nella fase di esplorazione dei dati di ML

Tabella di confronto tra data science e machine learning

Base di confrontoData ScienceApprendimento automatico
ScopoCrea approfondimenti dai dati relativi a tutte le complessità del mondo reale, inclusi compiti come comprendere i requisiti, estrarre dati ecc.Classificare o prevedere accuratamente il risultato per un nuovo punto dati apprendendo modelli da dati storici, utilizzando modelli matematici.
Dati in ingressoLa maggior parte dei dati di input vengono generati come dati di consumo umani che devono essere letti o analizzati dagli esseri umani come dati tabulari o immagini.I dati di input per ML verranno trasformati specificamente per gli algoritmi utilizzati. Il ridimensionamento delle funzionalità, l'incorporamento di Word o l'aggiunta di funzionalità polinomiali sono alcuni esempi
Complessità del sistema● Componenti per la gestione dei dati grezzi non strutturati in arrivo.

● Molti componenti mobili in genere programmati da un livello di orchestrazione per sincronizzare i lavori indipendenti

● La maggiore complessità sta dietro algoritmi e concetti matematici

● I modelli di ensemble avranno più di un modello ML e ciascuno avrà un contributo ponderato sull'output finale

Set di abilità preferito● Competenza nel dominio

● ETL e profilazione dei dati

● SQL forte

● Sistemi NoSQL

● Reporting / visualizzazione standard

● Ottima conoscenza della matematica

● Programmazione Python / R

● Wrangling di dati con SQL

● Visualizzazione specifica del modello

Specifiche hardware● I sistemi scalabili in orizzontale hanno preferito gestire dati di grandi dimensioni

● Alta RAm e SSD utilizzati per superare il collo di bottiglia degli I / O

● Le GPU sono preferite per operazioni vettoriali intense

● Sono in arrivo versioni più potenti come TPU (link)

Conclusione - Data Science vs Machine Learning

Sia in Data Science che in Machine Learning, stiamo cercando di estrarre informazioni e approfondimenti dai dati. L'apprendimento automatico sta cercando di far apprendere gli algoritmi da solo. Attualmente, i modelli ML avanzati vengono applicati a Data Science per rilevare e profilare automaticamente i dati. Cloud Dataprep di Google è l'esempio migliore per questo.

Articolo raccomandato:

Questa è stata una guida a Data Science vs Machine Learning, al loro significato, confronto testa a testa, differenze chiave, tabella di confronto e conclusioni. Puoi anche consultare i seguenti articoli per saperne di più -

  1. Domande sull'intervista dello sviluppatore di Hadoop
  2. Big Data vs Data Science: come sono diversi?
  3. Data Science e sua crescente importanza
  4. Statistiche vs Machine learning-Differenze tra
  5. Come rompere l'intervista allo sviluppatore di Hadoop?

Categoria: