Differenze tra mining di testo e analisi di testo

I dati strutturati sono in circolazione dai primi del 1900, ma ciò che ha reso così speciale l'estrazione del testo e l'analisi del testo è quello di sfruttare le informazioni dai dati non strutturati (Natural Language Processing). Una volta che saremo in grado di convertire questo testo non strutturato in dati semistrutturati o strutturati, sarà disponibile per applicare tutti gli algoritmi di data mining ex. Algoritmi statistici e di apprendimento automatico.

Persino Donald Trump è stato in grado di sfruttare i dati e convertirli in informazioni che lo hanno aiutato a vincere le elezioni presidenziali statunitensi, e in pratica non lo ha fatto i suoi subordinati. C'è un ottimo articolo là fuori http://fivethirtyeight.com/features/the-real-story-of-2016/ che puoi leggere.

Molte aziende hanno iniziato a utilizzare il text mining per utilizzare input utili dal testo disponibile là fuori, ad esempio un'azienda basata sul prodotto può utilizzare i dati di Twitter / Facebook per sapere quanto bene o male il loro prodotto sta facendo là fuori nel mondo usando Sentimental Analisi. All'inizio l'elaborazione richiedeva molto tempo, giorni, in effetti, per elaborare o persino implementare gli algoritmi di machine learning, ma con l'introduzione di strumenti come Hadoop, Azure, KNIME e altri software di elaborazione di big data il l'estrazione del testo ha guadagnato un'enorme popolarità nel mercato. Uno dei migliori esempi di analisi del testo che utilizza il mining di associazione è il motore di Raccomandazione di Amazon, che fornisce automaticamente raccomandazioni ai propri clienti cos'altro acquistano le altre persone quando acquistano un determinato prodotto.

Una delle maggiori sfide dell'applicazione degli strumenti di text mining a qualcosa che non è in un formato digitale / su drive del computer è il processo di realizzazione. I vecchi archivi e molti documenti importanti che sono disponibili solo su documenti vengono talvolta letti tramite OCR (Optical Character Recognition) che presentano molti errori e talvolta vengono inseriti manualmente dei dati che sono soggetti a errori umani. Il motivo per cui li vogliamo è che potremmo essere in grado di ricavare altre intuizioni che non sono visibili dalla lettura tradizionale.

Alcuni passaggi dell'estrazione del testo sono i seguenti

  • Recupero delle informazioni
  • Preparazione e pulizia dei dati
  • Segmentazione
  • tokenizzazione
  • Rimozione di numeri di parole e punteggiatura
  • Stemming
  • Converti in minuscolo
  • Tag POS
  • Crea corpus di testo
  • Matrice Term-Document

Di seguito sono riportati i passaggi di Text Analytics che vengono applicati dopo che è stata preparata la Matrice del documento a termine

  • Modellazione (ciò può includere modelli inferenziali, modelli predittivi o modelli prescrittivi)
  • Formazione e valutazione dei modelli
  • Applicazione di questi modelli
  • Visualizzazione dei modelli

L'unica cosa che bisogna sempre ricordare è che l'estrazione del testo precede sempre l'analisi del testo.

Confronto testa a testa tra mining di testo e analisi di testo (infografica)

Di seguito è riportato il confronto 5 tra mining di testo predittivo e analisi di testo

Differenze chiave tra Text Mining e Text Analytics

Differenziamo l'estrazione del testo e l'analisi del testo in base ai passaggi che sono coinvolti in alcune applicazioni in cui vengono applicati entrambi l'estrazione del testo e l'analisi del testo:

• Classificazione dei documenti
In questo i passaggi inclusi nell'estrazione del testo sono tokenizzazione, derivazione e lemmatizzazione, rimozione di parole d'ordine e punteggiatura e infine calcolo del termine matrice di frequenza o matrici di frequenza del documento.

Tokenizzazione : il processo di suddivisione di tutti i dati (corpus) in blocchi più piccoli o parole più piccole di solito singole parole è noto come tokenizzazione (modello N-Gram o modello Bag of words)

Stemming e Lemmatization - Ad esempio le parole, big big e large significano tutte la stessa cosa e formeranno dati duplicati, al fine di mantenere ridondanti i dati che facciamo lemmatizzazione, collegando le parole alla parola radice.
Rimozione delle parole di arresto: le parole di arresto non sono utili nell'analisi che includerà parole come is, the e ecc.

Frequenze di termini : questa è una matrice con intestazioni di riga come nomi di documenti e colonne come termini (parole) e i dati sono la frequenza delle parole presenti in quei particolari documenti. Di seguito è riportato uno screenshot di esempio.

Nella figura sopra, abbiamo gli attributi nelle righe (parole) e il numero del documento come colonne e la frequenza delle parole come dati.

Ora arrivando all'analisi del testo abbiamo i seguenti passaggi che devono essere considerati

Clustering - Usando K-significa clustering / reti neurali / CART (alberi di classificazione e regressione) o qualsiasi altro algoritmo di clustering ora possiamo raggruppare i documenti in base alle funzionalità che sono state generate (le caratteristiche qui sono le parole).

Valutazione e visualizzazione - Distribuiamo il cluster in due dimensioni e osserviamo come questi cluster variano l'uno dall'altro, e se il modello è valido sui dati di test, possiamo distribuirlo in produzione e sarà un buon classificatore di documenti che classificherà qualsiasi nuovo documenti che vengono forniti come input e darebbe semplicemente il nome al cluster in cui rientrerà.

• Analisi del sentiment

Uno degli strumenti più potenti sul mercato che aiutano a elaborare i dati di Twitter / dati di Facebook o qualsiasi altro dato che può essere utilizzato per ricavarne il sentimento se il sentimento è buono, cattivo o neutro per un particolare processo / prodotto o persona è l'analisi del sentimento.
La fonte dei dati può essere facilmente disponibile utilizzando l'API di Twitter / API di Facebook per ottenere tweet / commenti / Mi piace ecc. Sul tweet o su un post di un'azienda. Il problema principale è che questi dati sono difficili da strutturare. I dati conterrebbero anche vari annunci pubblicitari e lo scienziato che lavora per l'azienda deve assicurarsi che la selezione dei dati venga effettuata nel modo giusto in modo che solo i tweet / post selezionati passino attraverso le fasi di pre-elaborazione.
Altri strumenti includono Web-Scraping, questa è una parte del text mining in cui si scaricano i dati dai siti Web utilizzando i crawler.
Il processo di estrazione del testo rimane lo stesso di tokenizzazione, derivazione e lemmatizzazione, rimozione di password e punteggiatura e, infine, elaborazione, il termine matrice di frequenza o matrici di frequenza del documento, ma l'unica differenza viene quando si applica l'analisi del sentimento.
Di solito, diamo un punteggio a qualsiasi post / tweet. Di solito, quando acquisti un prodotto e recensisci se ti viene data anche un'opzione per dare stelle alla recensione e pubblicare un commento. Google, Amazon e altri siti Web usano le stelle per valutare il commento, non solo questo prendono anche i tweet / post e li danno agli esseri umani per valutarlo come buono / cattivo / neutro e, combinando questi due punteggi, generano un nuovo punteggio a qualsiasi tweet / post particolare.
La visualizzazione dell'analisi del sentiment può essere fatta usando una nuvola di parole, grafici a barre della matrice dei termini di frequenza.

• Associazione di analisi mineraria

Una delle applicazioni su cui alcuni ragazzi stavano lavorando era il "modello probabilistico degli eventi avversi da droghe" in cui si può verificare quali eventi avversi possono causare altri eventi avversi se prende un determinato medicinale.
Il mining del testo includeva il flusso di lavoro seguente

Dalla figura sopra, possiamo vedere che fino al data mining tutti i passaggi appartengono al text mining che identifica la fonte dei dati, li estrae e quindi li prepara pronti per essere analizzati.

Quindi applicando il mining di associazione abbiamo il modello seguente
Come possiamo vedere, alcuni segni di freccia puntano verso il cerchio arancione e quindi una freccia verso un particolare ADE (evento avverso da farmaci). Se prendiamo un esempio sul lato inferiore sinistro dell'immagine, possiamo trovare apatia, astenia e sentirsi anormali ci porta a sentirci in colpa, bene si può dire che è ovvio, è ovvio perché come umano puoi interpretare e relazionarti ma qui una macchina lo sta interpretando e ci sta dando il prossimo evento avverso da farmaci.

Un esempio della nuvola di parole è il seguente

Tabella di confronto tra Text Mining e Text Analytics

Di seguito sono riportati gli elenchi di punti, descrivi i confronti tra Text Mining e Text Analytics:

Base per il confrontoEstrazione del testoAnalisi del testo

Senso

Il mining del testo sta sostanzialmente ripulendo tutti i dati disponibili per l'analisi del testoText Analytics sta applicando tecniche statistiche e di apprendimento automatico per essere in grado di prevedere / prescrivere o dedurre qualsiasi informazione dai dati estratti da testo.

Concetto

Il mining di testo è uno strumento che aiuta a ripulire i dati.Text Analytics è il processo di applicazione degli algoritmi

Struttura

Se parliamo del framework, il text mining è simile a ETL (Estrai Transform Transform), il che significa che è possibile inserire i dati nel database.Analitica nel testo questi dati vengono utilizzati per aggiungere valori all'azienda, ad esempio creando word cloud, grafici di frequenza dei grammi, N-grammi in alcuni casi

linguaggio

Python e R sono gli strumenti di mining di testo più famosi in circolazione per l'estrazione di testoPer l'analisi del testo, una volta che i dati sono disponibili a livello di database, possiamo usare qualsiasi software di analisi là fuori, inclusi Python e R. Altri software includono Power BI, Azure, KNIME, ecc.

Esempi

  • categorizzazione del testo
  • raggruppamento di testi
  • estrazione concetto / entità
  • analisi del sentimento
  • riassunto del documento
  • produzione di tassonomie granulari
  • Modellazione di relazioni di entità
  • Analisi dell'associazione
  • visualizzazione
  • analisi predittiva
  • recupero delle informazioni
  • analisi lessicale
  • riconoscimento del modello
  • il tagging / annotazione

Conclusione: estrazione del testo e analisi del testo

Il futuro dell'estrazione del testo e dell'analisi del testo non è applicabile solo all'inglese, ma ci sono stati anche continui progressi e usando strumenti linguistici non solo l'inglese altre lingue sono troppo prese in considerazione per l'analisi.

L'ambito e il futuro dell'estrazione del testo cresceranno in quanto vi sono risorse limitate per analizzare altre lingue.

Text Analytics ha una gamma molto ampia in cui può essere applicato, alcuni degli esempi dei settori in cui questo può essere utilizzato sono:

  • Monitoraggio dei social media
  • Applicazioni farmaceutiche / biotecnologiche
  • Applicazioni aziendali e di marketing

Articolo raccomandato

Questa è stata una guida alla differenza tra l'estrazione del testo rispetto all'analisi del testo, il loro significato, il confronto diretto, le differenze chiave, la tabella di confronto e le conclusioni. Puoi anche consultare i seguenti articoli per saperne di più -

  1. Azure Paas vs Iaas-Scopri le differenze
  2. Le 3 migliori cose da sapere sull'estrazione dei dati e sull'estrazione del testo
  3. Conoscere le 7 migliori differenze tra data mining e analisi dei dati
  4. Business Intelligence vs Machine Learning: qual è il migliore
  5. Predictive Analytics vs Data Mining - Qual è più utile

Categoria: