Prof. Mirko Tavosanis, Lei è autore del libro Lingue e intelligenza artificiale edito da Carocci: a che punto è lo sviluppo dell’elaborazione automatica del linguaggio?
Lingue e intelligenza artificiale, Mirko TavosanisDa un punto di vista relativo, è andata molto avanti e molto in fretta. Per misurare i progressi basta guardare alla situazione di venti o venticinque anni fa: nel 1993, per esempio, non esistevano sistemi in grado di scrivere un messaggio sotto dettatura, a meno che non si usasse un lessico molto limitato e non si facessero pause artificiali tra una parola e l’altra. Oggi viceversa si può tranquillamente dettare un messaggio su WhatsApp al cellulare, mentre si cammina, e vederlo comparire scritto in modo corretto. Nel 1993 la traduzione automatica non aveva quasi applicazioni pratiche; oggi, se vogliamo, possiamo prendere un articolo di giornale scritto in cinese, passarlo a uno strumento come Microsoft Translator e ottenere un testo italiano che ci fa grosso modo capire i contenuti dell’articolo. Sono stati miglioramenti molto graduali, ma abbastanza costanti… e in molti casi gli ultimi dieci anni hanno fatto la differenza.

In che modo le tecniche di intelligenza artificiale possono ampliare le capacità di elaborazione automatica del linguaggio?
Con l’etichetta di “intelligenza artificiale” oggi in effetti si fa riferimento a un sacco di cose, non sempre in modo trasparente. Al cuore delle novità c’è comunque una serie di tecniche: machine learning, apprendimento automatico, reti neurali. Queste tecniche sono sostanzialmente a base statistica, come quelle che le avevano precedute. Rispetto al passato, però, in molti casi non è necessario scrivere un programma per gestire un determinato problema: partendo da una serie di esempi, il sistema è in grado di addestrarsi.
Queste tecniche si sono dimostrate capaci di ottenere, su tutta una serie di problemi, risultati migliori rispetto a quelli delle tecniche statistiche precedenti. Non è detto che sia sempre così: per esempio, nella traduzione dall’inglese all’italiano e viceversa Google Traduttore ha da pochi mesi sostituito un vecchio sistema statistico con un nuovo sistema basato su reti neurali, ma la differenza tra i due sembra molto ridotta. In molte aree, però, i miglioramenti sono stati sensibili e piuttosto rapidi.

Quali sono le potenzialità o i limiti delle nuove tecnologie?
I limiti attuali sono ben definiti, e ho cercato di descriverli in dettaglio nel mio libro. Alcuni sviluppi sembrano a portata di mano, e apparentemente richiedono solo un leggero miglioramento delle tecnologie esistenti. Al di là di questo, però, non è chiaro quali possano essere i limiti sul lungo periodo. Anche le valutazioni degli addetti ai lavori sono molto diverse tra di loro.
L’incertezza nelle previsioni è in sostanza dovuta al fatto che nessuno sa quanto siano potenti le tecniche di intelligenza artificiale. A questo proposito, va precisato che una buona parte dei limiti di uso è dovuto al fatto che il modo in cui lavorano questi sistemi è probabilmente molto diverso da quello in cui lavora un cervello umano. In termini umani, il loro funzionamento è puramente meccanico e il loro quoziente intellettivo è pari a zero. D’altra parte, sappiamo molto poco del modo in cui funziona anche l’intelligenza naturale, e potremmo sempre avere delle sorprese… Cercare di capire quali sono i punti di contatto e quelli di differenza tra questi sistemi e il modo in cui funziona la mente umana è un problema incredibilmente affascinante. Al tempo stesso, è anche la chiave per cercare di capire quali attività potranno essere portate avanti nel giro di pochi anni, e quali invece no.

A che punto è lo sviluppo della tecnologia relativa al riconoscimento del parlato?
La trascrizione del parlato letto e scandito si può quasi considerare un problema risolto. Nel caso italiano, per esempio, ho visto che perfino pronunce con inflessioni regionali molto forti vengono riconosciute dai prodotti di uso comune con percentuali di successo che arrivano anche al 100%. Per un testo dettato è normale avere una percentuale di successo del 95%, il che significa che per esempio se si detta un messaggio di 20 parole è perfettamente normale che non ci sia all’interno neanche un errore di trascrizione.
D’altra parte, ancora oggi questi sistemi non sono in grado di trascrivere bene una conversazione reale tra esseri umani. Il parlato spontaneo è molto diverso dal parlato scandito di una dettatura e i progressi fatti finora non hanno modificato questa situazione. Per un dialogo normale gli errori superano spesso il 50%, e perfino le battute di un film o di un’intervista non vengono ancora trascritte con percentuali di successo accettabili. Una capacità del genere sarebbe utile in molte circostanze: la sottotitolatura automatica renderebbe per esempio accessibili a tutte le persone con limitazioni di udito i video prodotti anche da utenti amatoriali. Questo è senz’altro uno degli sviluppi che sembrano più a portata di mano, ma, al momento, semplicemente non ci siamo.

Quando e come la traduzione automatica giungerà a perfezione?
La perfezione probabilmente non si raggiungerà mai… Le lingue naturali sono strumenti di comunicazione molto imperfetti e imprecisi. Però oggi le traduzioni fatte da bravi esseri umani, anche se lasciano sempre fuori qualcosa, sono comunque uno strumento che consideriamo “abbastanza buono”.
Mi sembra quindi utile riformulare un po’ la domanda di partenza: quand’è che le traduzioni automatiche saranno migliori quelle fatte da un bravo traduttore umano? Forse solo quando esisterà una vera intelligenza artificiale simile a quella umana. Cosa che potrebbe avvenire nel giro di qualche decina d’anni, o forse mai: anche su questo gli esperti sono divisi.
Anche prima del raggiungimento di questo obiettivo, però, la traduzione automatica può avere un impatto notevole. Oggi Google riesce a tradurre molte lingue meglio di quanto si possa fare con diversi anni di studio. Naturalmente, per gli esseri umani imparare lingue è importante di per sé, ed è anche un atto culturale rilevante. Però, per chi è interessato solo alla comunicazione pratica, perfino la traduzione di Google o Microsoft fa risparmiare parecchia fatica.

Prendiamo per esempio un giornale come il Zhōngguó Qīngnián Bào (http://www.cyol.net/), organo della Lega della Gioventù comunista cinese. La home del giornale è assolutamente incomprensibile almeno per il 99,5% degli italiani, e anche per molti italiani che hanno magari studiato il cinese per anni. Basta però un clic con Google per ottenere una traduzione completa della pagina: il risultato è spesso scorretto dal punto di vista dei contenuti e il testo viene presentato in un italiano molto approssimativo, ma il lettore può farsi un’idea sorprendentemente precisa dei contenuti. Aprendo un articolo e traducendolo allo stesso modo si riesce di regola a cogliere il senso generale del testo.
Un risultato del genere, per quanto imperfetto, è superiore a quello che in molti contesti si ottiene anche dopo decenni di studio della lingua. Gli studenti cinesi o giapponesi hanno molte difficoltà nello studio delle lingue europee, e viceversa. La disponibilità dei sistemi automatici potrebbe quindi mettere in crisi per esempio il ruolo dell’inglese come lingua franca in molte aree del mondo, o spingere a un apprendimento delle lingue svincolato da questioni pratiche e legato più che altro a motivazioni culturali o a interessi personali.

Quali sviluppi futuri per l’elaborazione automatica del linguaggio?
Personalmente, credo che un traguardo importante sia l’estensione di assistenti vocali come Siri o Cortana all’ambito lavorativo e a situazioni in cui oggi si può lavorare solo attraverso complesse interfacce grafiche. Oggi questi sistemi riescono a trascrivere bene il parlato… ma non riescono a eseguire operazioni su questa base anche su dati che sono spesso già accessibili in forma molto strutturata.
Prendo un esempio dalla mia esperienza di docente. In alcune occasioni, io ricevo per posta elettronica elaborati di studenti da correggere, secondo modalità che cambiano abbastanza spesso. Non credo sia vicino il giorno in cui un sistema potrà decidere autonomamente come valutare molti dei contenuti di quegli elaborati. Però, sarebbe molto bello se per uno specifico esame potessi chiedere al mio computer anche solo di mandare a ogni studente un messaggio di conferma personalizzato, in cui si fissi un appuntamento per la correzione sulla base degli orari liberi nel mio calendario. Un compito del genere può già essere gestito realizzando per esempio un’interfaccia web di consegna collegata a una serie di regole sulla scrittura di messaggi… ma questo richiede molto più tempo rispetto al compiere queste operazioni a mano! Al tempo stesso, un compito del genere è ancora molto al di fuori della portata anche di sistemi come Smart Reply su Gmail, per non parlare di assistenti come Siri.
Chi riuscisse a mettere assieme un sistema funzionale di questo tipo per il lavoro da ufficio potrebbe fare un enorme passo avanti in tutte le situazioni in cui le interazioni sono debolmente strutturate. Il lavoro necessario è probabilmente enorme, ma non sembra fuori portata rispetto a quanto è già stato fatto negli ultimi anni.