
La seconda ragione è di tipo opportunistico. Nonostante non sia noto, chi fa ricerca nell’ambito sociale ha sempre dovuto scontrarsi con grandi difficoltà nel raccogliere dati per studiare i vari fenomeni sociali. Gli scienziati sociali hanno operato in condizioni di ‘scarsità di dati’ per molto tempo. Raccogliere dati era molto costoso e complesso, specialmente nel caso si volesse raccogliere data su vasta scala. Il risultato di tutto questo è che non sempre la ricerca sociale è stata in grado di spiegare e comprendere appieno i complessi fenomeni sociali che caratterizzano le nostre società. Anche molte delle teorie di cui disponiamo sono state condizionate dalla scarsità di dati, in quanto sono furono sviluppate in un contesto in cui fare ricerca empirica era difficile.
La dimensione digitale fornisce agli scienziati sociali una nuova frontiera di opportunità. Proprio perché le nostre società hanno iniziato ad accumulare una quantità di enorme di dati sul funzionamento delle medesime, per la prima volta ci troviamo dinnanzi ad una abbondanza di dati piuttosto che una scarsità. Certo, questo non avviene senza un prezzo. Vi sono nuove sfide metodologiche che si presentano a chi fa ricerca nelle scienze sociali e il mio libro ne affronta le principali. Quando si parla di Big Data, di uso di smartphone e sensori per la ricerca sociale, si parla esattamente di questa opportunità.
Quali sono le principali opportunità di ricerca e le sfide specifiche della ricerca sociale online e digitale?
Le opportunità sono rappresentate dalla possibilità di raccogliere dati che prima era impossibile raccogliere, dall’avere una maggiore risoluzione, vale a dire maggiori dettagli, e dalla possibilità di avere dati sia sulle opinioni che sui comportamenti delle persone. Vediamo ogni di questi punti in breve. Sulla quantità, si tratta di avere accesso ad un numero di casi molto maggiore del passato. Nel cercare di descrivere le caratteristiche di una popolazione, le scienze sociali hanno sviluppato sofisticati metodi di campionamento per poter dire qualcosa su una vasta popolazione partendo da un numero molto minore di casi. Ma il campionamento, per questioni di fattibilità e costi, era comunque limitato ad un numero di casi. Basti pensare che i sondaggi che descrivono le preferenze della popolazione italiana che vediamo in TV si basano su campioni tra i mille e duemila individui. L’accesso a vasti dataset permette di fare campione più grandi e, in alcuni casi, addirittura analizzare intere popolazioni.
In aggiunta, cosa spesso sottovalutata, il numero di informazioni che possiamo raccogliere per ogni singolo caso è molto maggiore rispetto a metodi tradizionali. Questo permette di avere una fotografia maggiormente accurata. Inoltre, possiamo raccogliere dati in modo longitudinale, vale a dire nel tempo in contrasto quanto avveniva prima, dove raccogliere dati spesso era limitato ad un unico momento di raccolta.
L’ultimo punto è anch’esso importante, possiamo ora, grazie ai dati digitali, raccogliere informazioni e dati di natura diverse. Possiamo raccogliere i testi che le persone scrivono come fonte delle loro opinioni ma anche le loro decisioni e comportamenti, la loro rete sociale e fonti di informazione. In altre parole, siamo slegati dal vincolo dei dati auto-riportati tipici di un questionario o di una intervista.
Quali principi metodologici sono alla base di ogni tecnica di ricerca digitale?
La ricerca digitale è un campo relativamente nuovo. Al momento siamo in una fase di transizione perché esistono dei principi metodologici tradizionali che mantengono la loro validità anche nel contesto digitale mentre altri nuovi stanno emergendo. Questo pone delle sfide per il ricercatore perché esistono meno delle pratiche consolidate e del consenso su cosa sia metodologicamente valido. Il libro dedica molto spazio a questo tema che non è facilmente riassumibile in poche parole. In generale, possiamo dire che vi sono delle differenze rispetto ai metodi tradizionali e quindi dei potenziali problemi metodologici anch’essi nuovi. Questo vale sia per la raccolta dei dati che per la parte dell’analisi. La ricerca digitale nelle scienze sociali ha iniziato a dialogare con la data science e numerose contaminazioni sono in corso. Allo stesso tempo, è necessario che gli scienziati sociali partecipino allo sviluppo di queste nuove metodologie per contribuire sia criticamente che costruttivamente.
Quali diversi tipi di dati digitali esistono?
I dati digitali si distinguono in dati strutturati e non strutturati. Si tratta di una distinzione generale che ha importanti implicazioni in termini di cosa si può fare con i dati e di come possono essere esplorati e analizzati. I dati strutturati sono composti da tipi di dati chiaramente definiti il cui modello li rende facilmente esplorabili; mentre i dati non strutturati – “tutto il resto” – sono composti da dati che di solito non sono altrettanto facilmente esplorabili, compresi formati come audio, video e post sui social media. Sono proprio i dati non strutturati ad essere di maggiore interesse per le scienze sociali. Per questo varie nuove tecniche di raccolta and analisi dei dati non strutturati iniziano a comparire nei curricula di formazione metodologica delle scienze sociali. La classificazione automatica di testi, immagini, e video diventa quindi una delle sfide metodologiche in questo campo insieme alla capacità di combinarli con altri dati più ‘tradizionali’.
Che differenza esiste tra metodi di raccolta dati non intrusivi e metodi intrusivi?
Una delle caratteristiche dei dati digitali è la loro natura non reattiva in termini di raccolta di dati. Infatti, possiamo distinguere i dati digitali come il risultato di metodi di raccolta dei dati non intrusivi. La distinzione tra queste due modalità di raccolta dei dati è importante nelle scienze sociali perché le persone “reagiscono” alle misurazioni dei ricercatori e possono anche capire quali sono gli obiettivi di un ricercatore. I metodi intrusivi sono quelli che richiedono la cooperazione consapevole e attiva degli individui per generare i dati che poi verranno analizzati. Ad esempio, un questionario è intrusivo perché deve essere risposto dai partecipanti per generare dei dati. I metodi non intrusivi o occulti sono quelli che non hanno bisogno di tale cooperazione. Ad esempio, un ricercatore può raccogliere dati dalla nostra pagina Twitter senza richiedere a noi alcuna cooperazione. È proprio la maggiore opportunità di metodi non intrusivi online che ha generato preoccupazioni sulla cosiddetta ricerca segreta. La ricerca online rappresenta in generale un rischio per la privacy e la riservatezza dei singoli individui perché spesso i metodi impediscono ai soggetti di sapere che i loro comportamenti e le loro comunicazioni vengono osservati e registrati (ad esempio: un’analisi su larga scala degli annunci e degli scambi in un archivio di newsgroup, in una chat room, ecc.). Quest’ultimo punto rappresenta una sfida per chi fa ricerca sociale, un delicato equilibrio tra le necessità della ricerca e la protezione della privacy.
Come si sviluppa l’analisi quantitativa dei dati?
La disponibilità di dati in una misura mai vista prima e la complessità dei medesimi sta introducendo diverse novità negli aspetti analitici della ricerca sociale quantitativa. Mentre in passato le tecniche statistiche utilizzate erano soprattutto inferenziali, nel contesto dei dati digitali e big data, i metodi abduttivi sono importanti. Metodi analitici che vengono dalla computer science sono ormai comuni nella ricerca sociale digitale, e questo provoca delle tensioni rispetto all’analisi tradizionale. I metodi analitici delle scienze sociali pongono l’accento sulla selezione delle variabili guidata da una teoria, ma hanno un problema di selezione dei modelli (statistici). I metodi delle scienze sociali mirano a testare le ipotesi, mentre quelli della computer science è di predire.
Queste due differenze sono “filosofiche” nel senso che l’approccio delle scienze sociali ha obiettivi diversi da quello della computer science. Vi sono altre differenze: sugli approcci ai test di significatività; un’altra questione dell’analisi quantitativa convenzionale è più orientata alla stima degli effetti principali e meno quelli di interazione.
Quale importanza rivestono, nel panorama della ricerca attuale, gli approcci computazionali all’analisi statistica e le tecniche di text mining e analisi di rete?
L’uso di metodi derivati o ibridati dalla computer science ha portato a quella che ora viene chiamata come scienza sociale computazionale. In questo approccio, metodi analitici differenti da quelli tradizionali sono applicati a dataset molto grandi e di fonte digitale. Questo approccio è un forte crescita ovunque, iniziano ad emerger corsi di laurea di questo genere come quello che abbiamo all’Università di Trento, dove sociologia e data science sono integrati in un percorso di studi di una laurea magistrale. Lo scienziato sociale, quindi, inizia ad avere nuove competenze che, allo stesso tempo, moltiplicano i suoi campi di azione. Non è un caso che uno dei maggiori datori di lavoro dei migliori studenti di sociologia quantitativa negli USA siano piattaforme come Facebook o Twitter, oltre ovviamente a schiere di informatici.
Le tecniche di text mining sono un esempio interessante perché hanno permesso agli scienziati sociali di analizzare testi, che solitamente venivano analizzati usando metodi qualitativi e quindi letti dai ricercatori stessi usando pochi casi, in quantità enormi rispetto al passato. È piuttosto normale oramai leggere studi scientifici che analizzato milioni di documenti. Queste analisi automatiche dei testi basate sul NLP (Natural Language Processing) sono una risorsa nuova per le scienze sociali.
L’analisi delle reti non nasce con la ricerca digitale ma la sua applicazione nel contesto digitale ne ha accelerato di molto lo sviluppo. La disponibilità di dati relazionali, dati sulle interazioni tra persone che prima erano molto difficili da ottenere, ha giocato un ruolo essenziale. Anche questo è un caso in cui le contaminazioni hanno iniziato ad essere molto interessanti. Reti sociali combinate ad analisi automatiche di testi e reti semantiche, la loro evoluzione longitudinale e così via. Queste integrazioni sono state anche favorite dall’adozione di ambienti software di analisi come R o Python in cui, in un unico ambiente, è possibile fare analisi di diverso tipo. Ecco perché uno scienziato sociale ora deve considerare l’uso di questi strumenti come parte della sua cassetta degli attrezzi. Le scienze sociali stanno vivendo un periodo molto interessante caratterizzato da moltissime innovazioni e la ricerca sociale digitale è al cuore di tutto questo.
Giuseppe Alessandro Veltri è Professore ordinario di Metodologia della Ricerca e Sociologia Cognitiva presso il Dipartimento di Sociologia e Ricerca Sociale dell’Università di Trento. In precedenza, ha conseguito un PhD dalla London School of Economics and Political Science, insegnato nel Regno Unito e lavorato per lo JRC Institute for Prospective Technological Studies (IPTS) della Commissione Europea. Ha pubblicato su riviste scientifiche come Nature, PLOS One, Computers in Human Behavior, Public Understanding of Science, Big Data & Society, Behavioural Public Policy e altre. Per altre informazioni www.giuseppeveltri.eu