“L’analisi automatica dei testi. Fare ricerca con il text mining” di Sergio Bolasco

L'analisi automatica dei testi. Fare ricerca con il text mining, Sergio BolascoL’analisi automatica dei testi. Fare ricerca con il text mining
di Sergio Bolasco
Carocci editore

«L’interesse per lo studio di fatti e fenomeni reali descritti in linguaggio naturale in questi anni è cresciuto in modo esponenziale, o quanto meno proporzionalmente alla disponibilità dei materiali testuali in formato elettronico e alla velocità di calcolo su masse di dati, identificate attualmente come big data. Una misura di tale crescita, dal web, è testimoniata ad esempio dalla quantità delle pagine indicizzate sul text mining nei principali motori di ricerca, da Google a Yahoo, pagine che dal 2000 al 2010 sono triplicate ogni due anni: ottantaquattro milioni nel 2013, su Google (erano poche decine di migliaia dieci anni fa). Non un grande numero che crescerà ancora molto in futuro.

L’Italia è fra i paesi che, in Europa, più di altri ha posto le basi per lo sviluppo di strumenti di linguistica computazionale, grazie alla presenza di scuole di linguisti quali Antonio Zampolli e Tullio De Mauro; loro discepoli hanno creato perfino una significativa attività imprenditoriale di industria della lingua. […]

L’intento del libro è dare sistematicità a una materia in continua evoluzione, raccontandone in primo luogo i fondamenti e raccogliendo l’esperienza personale di ricerca degli ultimi quindici anni sull’analisi dei testi. […]

Una ricostruzione storica dell’evoluzione della linguistica quantitativa in statistica linguistica, poi della statistica lessicale in statistica testuale e infine in text mining (per parlare solo del versante quantitativo) avrebbe rubato spazio al già voluminoso aggregato di criteri, metodi, strumenti e applicazioni che si voleva qui raccogliere in un’unica sede. Del resto questo campo è frutto di una simbiosi inscindibile fra statistica, linguistica e informatica, per cui altrettanto spazio meriterebbero alcuni tratti evolutivi di queste altre due discipline. Entro allora direttamente nel merito del volume, lasciando al lettore di scoprire le evoluzioni cronologiche di quest’ambito, che preferisco unificare sotto il termine di analisi automatica dei testi (AAT) a testimonianza del fare attualmente ricerca con modalità e strumenti oggi irrinunciabili.

Il libro si articola in tre parti dedicate rispettivamente ai fondamenti dell’analisi automatica dei testi (si affrontano questioni di teoria e di metodo); alle risorse statistico-linguistiche, ai loro utilizzi per la linguistica dei corpora e agli strumenti computazionali; a esempi di applicazioni, casi di studio e ricerche.

Nella Parte prima, nel cap. 1 si introducono innanzitutto le prospettive di una ricerca di tipo metrico fondata su dati non strutturati e i principali elementi di nomenclatura dell’AAT. Nel cap. 2 si presentano i tipi di corpora (ossia le collezioni di materiali testuali oggetti di studio), nonché alcune problematiche tipiche del trattamento automatico legate alle dimensioni dei testi da analizzare, alla normalizzazione delle grafie e al riconoscimento automatico delle parti del discorso. Nel cap. 3 si introducono i concetti di base dell’analisi di tipo testuale e lessicale, definendone rispettivamente le unità di analisi: di contesto (le prime) e di testo (le seconde). Con termini non tecnici diremmo i “documenti” e le “parole”. Nel capitolo si discutono anche i criteri per individuare eventuali interventi del ricercatore su tali unità, in funzione degli obiettivi dell’analisi e si specifica la nozione di meta-informazione, come l’insieme delle annotazioni risultanti dall’AAT sulle unità di analisi. I meta-dati, peraltro, sono il tramite per mettere in relazione i dati testuali, in quanto informazioni non strutturate, con i dati codificati, eventualmente associati ai testi, in quanto informazioni strutturate. Questa sinergia fra i due generi di dati costituisce una caratteristica peculiare dell’AAT, nei momenti di maggior connessione con il text mining in senso stretto. I criteri che accomunano gli aspetti trattati nel cap. 3 si riassumono in: segmentazione, selezione, annotazione e integrazione. Il cap. 4 approfondisce le logiche di studio nei due livelli, lessicale e testuale, sviluppando da un punto di vista linguistico aspetti del trattamento automatico dei testi. Si delinea così da un lato la relativa autonomia dei due livelli di studio, avente ciascuno caratteristiche e strumentazioni proprie, e dall’altro la funzione di ancillarità che l’analisi lessicale può svolgere nei confronti dell’analisi testuale, quando si utilizzano le meta-informazioni lessicali come base per le interrogazioni e le ricerche testuali. Nel primo livello in particolare si discutono: i) le caratteristiche e i limiti delle lemmatizzazioni possibili, ovvero i sistemi di annotazione linguistica; ii) l’impatto che queste annotazioni rivestono nel definire l’impronta di un testo, intesa come una sorta di DNA del corpus capace di distinguere il genere e il registro del lessico e perfino la paternità del testo (e qui la misurazione statistica svolge un ruolo di primo ordine); iii) i vari modi di dare un peso alle unità lessicali e di selezionare tipi diversi di keywords, attraverso criteri di peculiarità, specificità e rilevanza. Nel secondo livello, quello testuale, si illustrano le strumentazioni per localizzare nel corpus delle “entità di interesse” e per valorizzare, selezionare e categorizzare le unità di contesto, ossia i “documenti”, con opportune misure e indici quantitativi. Il capitolo si chiude presentando le possibili matrici di dati ricavabili a partire dall’AAT, per studiare con tecniche statistiche multidimensionali le relazioni più significative esistenti, nell’insieme, fra i dati testuali al loro interno (associazioni di parole, ricostruzioni sintagmatiche ecc.), e fra questi e i dati codificati disponibili nella collezione delle unità di contesto. Nel cap. 5 prevale il punto di vista dell’informatica, come scienza degli automi, in quanto si presentano criteri e strumenti per il recupero e l’estrazione dell’informazione non strutturata. Nel capitolo si presentano modelli capaci di disegnare grammatiche locali, utili alla ricerca di “strutture a elementi variabili” e più in generale a costruire risorse statistico-linguistiche, ossia basi di conoscenza lessicali, alle quali De Mauro nella prefazione fa ampi e significativi riferimenti. Nell’ultima parte del capitolo si discute la possibilità, con l’ausilio di adeguate tecniche statistiche, di fornire rappresentazioni del senso estraibile da un corpus, al di là delle parole che singolarmente vi figurano. La misurazione d’insieme su base matematico-statistica ricostruisce una informazione complessa quale quella presente in una collezione di testi e i metodi del text mining consentono di descriverla. Il cap. 6, infine, presenta alcuni elementi di statistica testuale e text mining. La sezione è insufficiente, più delle altre, a rappresentare i due settori disciplinari in quanto tali. Il lettore troverà soltanto dei cenni ad alcune questioni che ritenevo di non poter trascurare nell’ottica della presente trattazione. Peraltro esiste già una larga letteratura su quegli argomenti, alla quale si rimanda il lettore più interessato. Fra gli argomenti non trascurati, vi sono cenni alla legge di Zipf e al concetto di frequenza normalizzata, nonché a misure di distanza alla base dei confronti lessicali fra parole e fra testi. Un’attenzione particolare è dedicata alle tecniche multidimensionali di posizionamento e mapping fattoriali introdotte dal matematico-statistico francese J. P. Benzécri negli anni sessanta del Novecento: si cerca di fornire al lettore senza formalizzazione matematica alcuni tratti essenziali degli algoritmi che sono alla base di queste tecniche, al fine di coadiuvare la lettura dei risultati delle applicazioni presentate nella Parte terza del volume. Successivamente nel capitolo si forniscono cenni sulle soluzioni di text mining per aziende e istituzioni, nonché un panorama dei settori e campi applicativi più significativi.

La Parte seconda è dedicata alle risorse come fonti di meta-informazione da associare ai dati testuali per una loro analisi più approfondita, ad alcuni esempi di applicazione di tali risorse in una logica di studi di linguistica dei corpora e infine a strumenti software disponibili per l’AAT. Nel cap. 7 sono illustrate risorse sia linguistiche sia statistiche: dai dizionari di lingua a quelli tematici, dai lessici di frequenza dei lemmi di parole alle liste di frequenza di forme e di locuzioni, mostrandone alcuni impieghi. Fra i tanti, la misura del sentiment di un testo, inteso come la tonalità positiva o negativa delle parole che lo compongono. Nel cap. 8 si descrivono fatti di linguistica dei corpora che emergono misurando entità, classi di parole o strutture lessicali nella loro attualizzazione in una risorsa quale un ampio corpus di intere annate del quotidiano “la Repubblica”. In particolare, si ricostruisce lo studio di alcune strutture a elementi variabili come le locuzioni verbali o i crononimi, e alcuni andamenti temporali di gruppi o singole parole negli anni novanta. Dopo aver tratteggiato gli aspetti metodologici, si è proceduto nella misurazione di questi fenomeni nel corpus che è servito a creare il database lessicale di “Repubblica”. Nel cap. 9 si forniscono elementi sui principali software di analisi automatica dei testi da quelli linguistici a quelli strettamente qualitativi, passando per l’ambito metrico e il text mining. Dopo aver descritto gli “attrezzi” fondamentali di ogni AAT, si illustra come questi funzionino all’interno del software TALTAC con dettagli su funzionalità e fasi del trattamento. Si propongono infine esempi di strategie di analisi in funzione di obiettivi specifici.

Nella Parte terza si riportano casi di studio e applicazioni con l’obiettivo di esemplificare differenti tipi di analisi, mosse da ricerche con finalità diverse su corpora di più tipi. Alcune fra queste ricerche documentano le strategie delineate nel cap. 9. Nei due capitoli che seguono due casi di studio sono descritti con ampio dettaglio. Nel cap. 10 si ricostruisce un insieme di ricerche e studi del lessico della critica enogastronomica a partire da migliaia di recensioni di guide del settore di due diverse fonti, Gambero Rosso e Slow Food. Fin dalle prime statistiche sull’imprinting grammaticale e semantico dei testi si individuano differenze tra guide dei ristoranti e dei vini, fra le “vocazioni” dei due editori, definendo il mondo lessicale dei locali (ristoranti e trattorie) e delle aziende di produzione viti-vinicole. Una classificazione automatica non supervisionata dei locali ha permesso di individuare i lessici delle diverse tipologie di offerta gastronomica. Le analisi successive hanno portato a una categorizzazione supervisionata sfumata, non deterministica, per misurare, attraverso le descrizioni dei menù, il grado di creatività e innovazione o di tradizione e legami al territorio della cucina, attestandone le combinazioni di fatto. Nel cap. 11 s’illustra invece uno studio sui diari giornalieri dell’indagine Istat sull’uso del tempo. Si tratta dell’analisi di un vasto corpus di testi brevi che mira a individuare, mediante la definizione di azioni e luoghi dichiarati nei diari, alcune attività quotidiane di particolare interesse per le statistiche sui bilanci del tempo, da correlare poi con caratteristiche individuali. Il campione di 50.000 persone, rappresentativo della popolazione italiana a livello regionale, consente l’estrazione di dette entità e la loro “misura ad alta risoluzione” secondo varie dimensioni. L’applicazione è un esempio d’integrazione fra data mining e text mining, in quanto mostra come a partire da informazioni non strutturate si possono produrre dati strutturati per statistiche tradizionali secondo lo stile Istat, ma anche per analisi d’insieme su dimensioni di significato latente sottostanti le dichiarazioni spontanee che descrivono le attività quotidiane individuali. Nei capp. 12 e 13 si riportano più brevemente applicazioni che – attraverso il posizionamento delle parole su piani interpretabili come mappe – arrivano a definire modelli di senso descritti da sintagmi latenti o gradienti di atteggiamenti. I corpora studiati sono assai diversi fra loro: una raccolta di articoli di stampa sull’immigrazione sulla quale si misura il “pregiudizio” riguardo alla figura dell’immigrato, correlandolo alle testate giornalistiche che ne parlano; oppure l’analisi di interviste di clienti sulla percezione della loro banca, che porta a individuare – attraverso il linguaggio delle risposte – quattro tipi di clientela, ciascuno espressione della fruizione che le persone fanno di quel servizio; o ancora, la ricostruzione di un classico dell’analisi qualitativa qual è la ricerca di Thomas e Zaniezski (che risale ai primi del Novecento) sulla corrispondenza fra contadini polacchi emigrati negli Stati Uniti e le loro famiglie, per rivisitarla con gli strumenti dell’analisi automatica. Il cap. 13 infine riepiloga alcuni risultati di tre analisi del linguaggio politico: una visione del lessico programmatico di governo nel parlamento italiano dal 1948 al 1994 e dell’evoluzione del concetto di “impegno”, le caratteristiche del vocabolario semplice e diretto di Silvio Berlusconi quando è al governo piuttosto che all’opposizione, le diverse tonalità del parlare dei principali leader politici della prima e seconda Repubblica attraverso il loro uso di metafore verbali e aggettivi positivi / negativi.»

ISCRIVITI ALLA NEWSLETTER
Non perderti le novità!
Mi iscrivo
Niente spam, promesso! Potrai comunque cancellarti in qualsiasi momento.
close-link