La macchina della verità. Come Google e i Big Data ci mostrano chi siamo veramente, Seth Stephens-DavidowitzIn che modo i Big Data ci consentono di comprendere la società in cui viviamo? È la domanda a cui risponde La macchina della verità. Come Google e i Big Data ci mostrano chi siamo veramente, l’interessantissimo libro di Seth Stephens-Davidowitz, edito dalla LUISS University Press, che indaga la scienza dei dati e le sue innumerevoli applicazioni pratiche.

L’autore, che grazie alle sue ricerche è stato assunto come data scientist da Google, ci svela i segreti reconditi della società in cui viviamo grazie all’analisi dei dati relativi all’uso che facciamo del web. Seth Stephens-Davidowitz ha così scoperto che le tracce che lasciamo mentre facciamo ricerche sul web rivelano fin troppo di noi: come afferma nel libro, «le ricerche di informazioni da parte delle persone sono di per sé delle informazioni.» Con la consapevolezza che «la forza dei dati di Google sta nel fatto che le persone dicono a questo gigantesco motore di ricerca cose che non direbbero a nessun altro» tanto da portarlo ad affermare che «le ricerche su Google siano il dataset più importante mai raccolto sulla psiche umana». Il perché è presto detto: «uno dei motivi principali per cui le ricerche su Google sono così preziose non è che ce ne siano tante; è che le persone sono oneste e spontanee quando le formulano.» Insomma, la «barra di ricerca funge da una specie di confessionale.»

«Prendiamo, ad esempio, il sesso. Nessun sondaggio è attendibile quando si va a indagare la nostra vita sessuale. In media, gli uomini sposati al di sotto dei sessantacinque anni dichiarano di avere rapporti sessuali una volta alla settimana. Solo l’uno per cento afferma di non aver fatto sesso nel corso dell’anno precedente. Le donne sposate dichiarano di praticare meno sesso, ma non molto di meno. Le ricerche su Google danno un’immagine molto meno vivace, e a mio avviso molto più accurata, del sesso durante il matrimonio. Su Google, la cosa di cui le persone si lamentano maggiormente quando parlano del matrimonio è proprio di non fare sesso. Le ricerche con matrimonio senza sesso sono tre volte e mezzo più diffuse di quelle con matrimonio infelice e otto volte più frequenti di matrimonio senza amore. Anche le coppie non sposate si lamentano piuttosto spesso di non praticare sesso. Su Google le ricerche con “relazioni senza sesso” sono seconde solo a quelle con “relazione violenta” »

I dati di Google rivelano così particolari meno noti ma preoccupanti: «La notte della prima elezione di Obama, quando la maggior parte dei commenti si è concentrata sulle lodi al neopresidente e sul riconoscimento della portata storica della sua elezione, all’incirca una su cento delle ricerche su Google che contenevano la parola Obama comprendeva anche KKK (Ku Klux Klan) o negro. Forse non sembrerà un numero elevatissimo, ma pensate alle migliaia di ragioni non razziste per cercare su Google questo giovane outsider con una famiglia stupenda che sta per assumere il ruolo di uomo più potente della terra. Nella notte delle elezioni, le ricerche e le iscrizioni a Stormfront, un sito nazionalista bianco con una popolarità sorprendentemente elevata negli Stati Uniti, sono state oltre dieci volte più alte del solito. In alcuni Stati, le ricerche con presidente negro hanno superato quelle con primo presidente nero. C’erano un’oscurità e un odio che non raggiungevano le fonti tradizionali, ma erano piuttosto evidenti nelle ricerche effettuate dalle persone.»

Prendiamo la partecipazione al voto: «Più della metà dei cittadini che non votano dichiarano nei sondaggi immediatamente prima delle elezioni che intendono farlo, distorcendo la nostra stima dell’affluenza, mentre le ricerche su Google con come votare o dove votare nelle settimane prima delle elezioni permettono di prevedere con precisione quali parti del Paese avranno grande visibilità nei sondaggi.»
È così possibile fare scoperte inaspettate: ad esempio, «in una ricerca che comprende i nomi di entrambi i candidati una persona è significativamente più propensa a digitare per primo quello che sostiene.» O che «le persone sono più propense a cercare barzellette quando le cose vanno bene nella vita, rispetto a quando invece sono tristi.»

Tutto ciò grazie ad uno strumento formidabile: Google Trends, che fornisce dati relativi alla frequenza con la quale gli utenti del popolare motore di ricerca cercano parole o frasi in luoghi e momenti diversi.

I dati raccolti dal web ci dicono molto anche di come le persone si sentono: si chiama “analisi del sentiment” (sentiment analysis) e consente ad esempio di «misurare l’umore medio delle parole in un passaggio o in un testo». I social media, e in particolare Facebook, che ne è il più diffuso, «hanno mostrato una possibilità entusiasmante: possono stimare ogni giorno la Felicità Interna Lorda di un Paese. Se gli status delle persone tendono a essere positivi, si presume che per quella giornata la nazione sia felice; se tendono a essere negativi, si presume che per quella giornata la nazione sia triste.» In base ai dati di Facebook, «Natale è uno dei giorni più felici dell’anno.»
Uno studio condotto su quali tipologie di storie vengono condivise maggiormente rivela poi che «più i contenuti sono positivi, più possibilità hanno di diventare virali.»

Il libro, il cui titolo originale in inglese è Everybody Lies (‘Tutti mentono’), parte dall’assunto che la gente menta più di quanto è disposta ad ammettere. Non solo, mente anche a se stessa. Ne sa qualcosa Netflix: «In origine, l’azienda consentiva agli utenti di creare una coda di film che volevano guardare in futuro ma non avevano il tempo di vedere in quel momento. In questo modo, quando avrebbero avuto più tempo, Netflix poteva ricordare loro l’esistenza di quei film. Tuttavia Netflix si è accorto di qualcosa di strano nei dati. Gli utenti riempivano le loro code con un sacco di film. Ma giorni dopo, quando Netflix ricordava loro dei film in coda, era raro che cliccassero. Qual era il problema? Chiedete agli utenti quali film pensano di guardare tra qualche giorno, e riempiranno la coda di film intellettuali, ambiziosi, come documentari in bianco e nero sulla Seconda guerra mondiale o serissime pellicole straniere. Pochi giorni più tardi, tuttavia, vorranno guardare gli stessi film che vogliono vedere di solito: commedie di basso livello o film romantici. Di fronte a questa disparità, Netflix ha smesso di chiedere alla gente cosa volesse vedere in futuro e ha cominciato a costruire un modello basato su milioni di clic e visualizzazioni di clienti simili. Ha iniziato ad accogliere i suoi utenti con elenchi di suggerimenti di film basati non su cosa loro dichiaravano di apprezzare, ma su cosa era probabile guardassero in base ai dati.»

Eppure, nemmeno i Big Data sono infallibili: «La maledizione della dimensionalità è un problema cruciale quando si tratta di Big Data»: la stragrande maggioranza degli studiosi ignora l’esplosione di dati provocata dall’età digitale.

Infine, sempre grazie al sapiente uso dei dati, il libro mostra come sia possibile rispondere ad un interessante interrogativo: quante persone leggono i libri fino alla fine? «Jordan Ellenberg, un matematico della University of Wisconsin, era curioso di sapere quante persone leggono i libri fino alla fine e ha escogitato un modo ingegnoso per capirlo utilizzando i Big Data. Amazon raccoglie dati su quante persone citano le varie frasi dei libri ed Ellenberg ha capito che poteva confrontare la frequenza delle citazioni delle frasi all’inizio di un libro con quella delle frasi tratte dalla conclusione. Avrebbe avuto così una prima nozione di quanto i lettori fossero propensi ad arrivare alla fine di un libro. Stando ai suoi dati, più del 90 per cento dei lettori ha terminato il romanzo Il cardellino di Donna Tartt. Invece solo il 7 per cento è riuscito a leggere per intero il capolavoro del premio Nobel per l’economia Daniel Kahneman, Pensieri lenti e veloci. Meno del 3 per cento, secondo questa semplice metodologia, era arrivato alla fine di un libro tanto discusso e apprezzato come Il capitale nel XXI secolo dell’economista Thomas Piketty. In altre parole, la gente tende a non leggere per intero i trattati degli economisti.»