logo BLUE BI business intelligence & analytics
Cerca
Close this search box.

Text Analysis: far comprendere ai computer il linguaggio umano

Text-analysis-Blue-BI

Condividi

La crescita esplosiva di dati di tipo testuale nel mondo del business porta le aziende a doversi interfacciare ad una mole di dati sempre maggiore: basti pensare a tutte le email, pagine web, posts sui social media, documenti, commenti e recensioni dei clienti generati ogni giorno.

Risulta quindi sempre più necessario riassumere, analizzare, dare forma e interpretare tali dati, al fine di estrarre informazioni preziose ed utili al cosiddetto decision making.

Cosa si intende per “Text Analysis” ?

Con “Text Analysis” si intende la tecnica di estrazione di relazioni, schemi e informazioni da fonti testuali non strutturate o semi-strutturate, tramite tecniche di ML (Machine Learning, ovvero il ramo dell’AI che si avvale di tecniche analitiche e statistiche per adoperare grandi quantità di dati senza l’intervento umano) e NLP (Natural Language Processing). Quest’ultimo rappresenta la branca dell’Intelligenza Artificiale che, usufruendo di tecnologie utili a rendere i computer capaci di recepire, manipolare e interpretare il linguaggio umano, mira a colmare il divario comunicativo tra uomo e macchina.

L’adozione di questo tipo di analisi aiuta quindi le aziende a raccogliere dati da molteplici fonti (social media, sondaggi, siti web, email, strumenti di feedback…). Questi dati vengono successivamente analizzati ed elaborati tramite tecniche di ML e NLP al fine di estrarre vantaggiosi insights che, se affiancati a specifici strumenti di visualizzazione,  possono essere resi visibili ed intuibili a colpo d’occhio, offrendo così un potenziale supporto a molteplici attività aziendali (analisi dell’opinione degli utenti, cambiamenti organizzativi, processi decisionali più rapidi, anticipazione e/o individuazione di possibili problemi…). 

Text-Analytics

Benefit del Text Analytics

L’adozione del Text Analytics all’interno di un’impresa permette di:

  • Accrescere la customer experience: conoscere le propensioni degli utenti, la qualità dei servizi o la resa di specifici prodotti aiuta a identificare punti deboli da perfezionare, qualità da avvalorare o problematiche comuni. Migliorare la soddisfazione dei clienti risulterà in un minor numero di abbandoni e maggiore fedeltà e profitto.
  • Velocizzare e agevolare il decision-making: analizzare manualmente informazioni testuali comporta tempi di indagine tipicamente elevati, ridotti notevolmente nel caso di analisi automatizzate che, di conseguenza, risulterebbero in processi decisionali nettamente più rapidi.
  • Offrire prodotti e/o servizi più mirati: il text analytics risulta essere proficuo nel ricavare informazioni essenziali in analisi di mercato, brand positioning e marketing, facilitando non solo la comprensione di ciò che influisce e motiva maggiormente la decisione di acquisto dei clienti, ma anche una più approfondita conoscenza della concorrenza e del settore di applicazione.

Sfide del Text Analytics

A seconda della fonte di estrazione, i dati in input possono essere categorizzati in:

  • Dati strutturati: dati formattati in schemi ben definiti. Ne sono un esempio i dati organizzati in righe o colonne ben definite. Essendo l’architettura di tali dati ben stabilita, questi rappresentano il tipo di dati più facile da analizzare.
  • Dati non strutturati: dati non organizzati in modalità definite e senza una struttura facilmente identificabile. Contenuti estratti da social media, chat, documenti o sondaggi rientrano in questa categoria. L’assenza di un’ossatura ben distinta rende tali dati piuttosto complessi da maneggiare.
  • Dati semi-strutturati: dati senza una rigida struttura, ma caratterizzati da elementi descrittivi (come tags o metadata) grazie ai quali possono essere catalogati e analizzati in modo più funzionale rispetto ai dati non strutturati. Questa tipologia comprende file JSON, CSV, o XML.

 

Si stima che più della metà di tutti i dati aziendali siano di tipo non strutturato e, data la mole di dati generati oggigiorno, questo risulta essere uno dei problemi principali legati alla difficoltà dell’analisi dei Big Data.

In aggiunta, la complessità del linguaggio umano implica maggiori sforzi nel raggiungimento dell’obiettivo. Rendere una macchina capace di assegnare correttamente il significato, o peso, alla parola “costa” presente in frasi fuorvianti come “il prodotto costa molto” e ”al largo della costa pacifica” non sempre risulta essere semplice; inoltre, la possibilità di intendere lo stesso concetto in innumerevoli modi differenti rende anch’essa complicato associare semanticamente i termini.

Tecniche e strumenti della Text Analysis

L’AI (Artificial Intelligence) ricopre un ruolo indiscutibilmente fondamentale nell’analisi testuale; la sua interpretazione viene associata alle capacità dei computer di eseguire attività comunemente attribuite all’intelligenza umana. Si presenta, in ambito di Text Analysis, in veste di NLP (Natural Language Processing) e ML (Machine Learning).

Utilizzate sia distintamente che simultaneamente, queste due branche offrono i mezzi necessari a performare le principali fasi dell’analisi testuale, che è possibile schematizzare come indicato di seguito:

Data extraction

Dati rilevanti per una determinata azienda, prodotto, brand o servizio possono essere estratti da fonti interne (informazioni aziendali acquisite da email, sondaggi…) o fonti esterne (informazioni acquisite da social media, notizie di giornale, recensioni online, forum…).

Data pre-processing

Questo step risulta essere fondamentale per l’analisi: una volta collezionati i dati non strutturati o semi-strutturati, è necessaria una mirata preparazione affinché questi vengano resi idonei a un successivo modello di Machine Learning.

I testi verranno quindi puliti (ad esempio, rimozione della punteggiatura e di parole di valore trascurabile) e trasformati in liste di numeri (vettori), in modo da poter fornire a futuri modelli i necessari input numerici.

Model deployment

Una volta processati, i dati possono essere “dati in pasto” a modelli di Machine Learning.

A seconda dell’obiettivo, i suddetti modelli possono essere di tipo:

  •  Supervisionato: in tal caso, i dati in input dovranno necessariamente essere etichettati (per ogni dato dovrà quindi essere esplicitata la caratteristica che sarà poi l’obiettivo stesso del modello; ad esempio, in un modello di Sentiment Analysis dove è necessario classificare una recensione – ovvero ogni elemento del training – come “positivo”, “negativo” o “neutro”, ogni recensione dovrà essere associata a un’etichetta avvalorata come uno dei 3 sentimenti da voler identificare). Tali dati etichettati fungeranno in parte da training (dati su cui verrà allenato il modello), e il resto da testing (dati su cui verranno testate le prestazioni del modello allenato).
  •  Non supervisionato: al contrario del modello supervisionato, qui i dati presi in input non saranno etichettati. Senza alcuna informazione riguardante la classe di appartenenza, il modello dovrà quindi essere in grado di riconoscere patterns, relazioni e somiglianze esistenti nei dati stessi, raggruppandoli in base a tali similarità. Ciò implica la mancanza di un vero e proprio training.

 

Un modello supervisionato tenderà ad avere una maggiore accuratezza, a discapito di complessità generalmente più elevata dovuta al training che, in tal caso, risulta essere necessario.

In entrambi i casi, una volta pronti, i modelli saranno in grado di riconoscere l’output desiderato di nuovi dati non etichettati.

Data visualization

Dopo che i dati non strutturati sono stati elaborati tramite tecniche di Text Analytics e modelli di Machine Learning, le informazioni risultanti possono essere utilizzate a scopo illustrativo sotto forma di grafici, dashboards, wordclouds o diagrammi, fornendo così spunti visivi che permettono alle aziende di individuare efficientemente tendenze nei dati e prendere decisioni.

Text Analysis: vantaggi aziendali e casi d’uso

Al fine di estrarre informazioni significative da testi, nel mondo del business sono molteplici gli applicativi della Text Analysis. Tra questi, possiamo trovare:

  • Sentiment Analysis: orientata all’estrazione di informazioni soggettive come emozioni o sentimenti. Raccogliendo dati da post su social media (es: commenti di post che promuovono determinati servizi), sondaggi, recensioni di prodotti o altre fonti, possono essere identificati sentimenti negativi, positivi o neutri predominanti, suscitati da specifici fenomeni o circostanze. Questa analisi risulta essere vantaggiosa per comprendere la propensione dei consumatori verso particolari brand, le risposte complessive a prodotti o servizi, nonché l’andamento nel tempo (eventualmente in risposta ad eventi come campagne pubblicitarie o promozioni) o identificare nuove tendenze tra gli utenti.
  • Topic Modelling: tecnica di apprendimento non supervisionato che permette di distinguere gli argomenti trattati in una raccolta di testi, assegnando ogni testo a un specifico topic. Estraendo parole chiave e concetti comuni, questa analisi permette di raggruppare testi o documenti non etichettati a priori, clusterizzando i contenuti testuali presi in esame e fornendone una sintesi informativa. Da questa analisi consegue il beneficio di identificare, scandire, analizzare e visualizzare plausibili topics sulla base di una grande mole di testi, che risulterebbero considerevolmente problematici da esaminare manualmente.

 

Blue BI, che da sempre crede nel valore dei dati, lavora con le soluzioni di Text Analysis per aiutare i propri clienti a sfruttare al meglio l’enorme mole di informazioni che hanno a disposizione. Analizzare i dati per individuare informazioni rilevanti permette di identificare nuove opportunità e accelerare la crescita attraverso decisioni informate.

Se vuoi sapere come possiamo aiutare la tua azienda a generare valore partendo dai dati che hai a disposizione, scrivici!

Realizziamo soluzioni di Business Intelligence & Advanced Analytics per trasformare semplici dati in informazioni di grande valore strategico.

Autore

Tabella dei Contenuti