Professor Fusi, Lei è autore del libro Tecnologie informatiche per l’umanista digitale edito da Nuova Cultura: quali competenze deve possedere un umanista digitale?
Tecnologie informatiche per l’umanista digitale, Daniele FusiNon è semplice rispondere in breve a questa domanda, tanto più che specie in Italia non è agevole delineare la stessa figura dell’umanista digitale, cui spesso non corrisponde una specifica specializzazione nel curriculum degli studi, né un chiaro ordinamento istituzionale, al di là di alcuni campi molto settoriali che da più tempo si avvalgono dell’informatica.
Un umanista digitale è anzitutto un umanista, dotato però delle nozioni tecniche e metodologiche necessarie per pensare il proprio lavoro e il proprio ruolo in modo assai diverso da quello tradizionale. Nel contesto di un mondo profondamente cambiato dall’era digitale, non è ovviamente più concepibile, né ormai possibile, che l’umanista ignori gli strumenti tecnologici a sua disposizione: il web abbonda di corpora di ogni genere, strumenti di ricerca e analisi, concordanze, dizionari, e innumerevoli altre risorse; ma non è il mero uso di strumenti digitali che propriamente faccia un umanista digitale, non più almeno di quanto si possa considerare digitale un testo a stampa riversato sul web sotto forma di PDF. Il mio libro, che riflette e supporta i miei corsi, illustra una serie di tecnologie scelte fra quelle più rilevanti e diffuse per l’ambito umanistico, ma il suo scopo primario è fare di questa illustrazione il modello di un metodo la cui portata va ben oltre queste stesse tecnologie, peraltro soggette a un’evoluzione estremamente rapida.

Il compito forse più arduo per un umanista digitale è imparare a pensare in un modo diverso da quello cui ci hanno abituati secoli di tradizione scritta; questo non significa affatto criticare questa tradizione, che è il fondamento stesso della disciplina, ma solo constatare che nel produrre risorse digitali l’umanista deve per certi aspetti adottare abiti mentali differenti. Ad esempio, uno dei temi che ricorrono più spesso a questo proposito è la necessità di separare i dati (il “contenuto”) dalle loro potenzialmente infinite visualizzazioni (la “presentazione”), laddove l’abitudine di pubblicare testi come risultato di un’attività scientifica ha sempre condotto a fondere questi due aspetti.
In un testo, a stampa o digitale che sia, i dati espressi dal linguaggio sono infatti presentati sempre nello stesso modo, sotto forma appunto di testo. Per fare un esempio concreto, si pensi a un oggetto spesso quasi sconosciuto alle nuove generazioni, come il dizionario: la sua evoluzione è a questo proposito indicativa e di facile comprensione. Un dizionario è un libro che si articola in voci, ciascuna delle quali è un testo, che contiene lemmi, parti del discorso, flessioni, traducenti, esempi, fraseologie, parole derivate o comparabili, etc.: tutto questo rimane però espresso tramite il testo, stampato nella sua veste tipografica. Il testo qui è l’unica modalità di presentazione di questi dati, anche se questi si potrebbero incasellare in schede da riempire come moduli, piuttosto che essere calati in un’unica sequenza di parole che deve essere interpretata dal lettore.

Questo limite si ripropone anche quando il dizionario venga trasportato dalla carta a un medium digitale: i primi dizionari digitali su web non erano in fondo che testo codificato in HTML, il linguaggio di marcatura delle pagine web. Certo, il passaggio da carta a web era già una notevole rivoluzione: si pensi alla latitudine del pubblico raggiunto, alla rapidità e facilità di consultazione, e alla possibilità (almeno nelle implementazioni meno rudimentali) di cambiare in modo dinamico la veste tipografica del testo stesso. Nondimeno, si tratta qui di un testo che “parla” di dati lessicografici, e non direttamente di questi dati. La distinzione può apparire incomprensibile o irrilevante al lettore finale, ma è quanto fa la differenza tra il web come è oggi e come sarà nel futuro prossimo. Il testo qui non è un dato primario, ma è piuttosto il modo di presentare i dati lessicografici; certo, in qualche modo essi devono essere presentati, e talora (ma non sempre) il testo può essere il modo più efficace; ma appunto di questo si tratta, di un modo di presentare dei dati, un intermediario che si frappone fra questi e l’utente finale.
Questo porta a una serie di notevoli inconvenienti: anzitutto, il fatto che oggi le macchine non sono ancora in grado di comprendere efficacemente il linguaggio naturale, sicché i dati possono essere estratti dalla loro presentazione testuale in modo parziale e con una relativa probabilità di successo. Si tratta dello stesso limite ben noto a tutti nelle ricerche web, per quanto nutrite da motori sempre più raffinati: se sono interessato all’Iliade e cerco “Homer”, fra i primi risultati potrei piuttosto trovare pagine relative ai ben più famosi Simpson. Questo esempio è magari un po’ paradossale, ma può mostrare che come tutti sappiamo la ricerca su web avviene oggi per parole chiave, perché l’oggetto dell’indicizzazione non sono direttamente i dati, ma dei testi, che di questi dati trattano, nei modi e nelle lingue e con gli scopi più vari.

In un dizionario concepito come una raccolta di testi, ciascuno rappresentante una sorta di monografia su una voce, la situazione è del tutto paragonabile: i dati sono offuscati e costretti nella gabbia del testo, da cui è molto laborioso estrarli per poterli adeguatamente indicizzare e fornire modalità di ricerca che vadano oltre la mera parola o sequenza di parole. Sono d’altronde proprio queste le modalità che oggi definiscono un dizionario digitale, che non è più un’opera monolitica e chiusa, ma un’intricatissima ragnatela dove ogni elemento ha innumerevoli connessioni verso altri: semantiche (ad es. parole affini perché di senso paragonabile o contrastante od opposto), formali (ad es. parole affini per il suono o l’ortografia), etimologiche (ad es. parole derivate dalla stessa radice), morfologiche (ad es. parole appartenenti alla stessa parte del discorso, o allo stesso paradigma flessivo, o alla stessa modalità di formazione), analogiche (ad es. parole connesse per etimologia popolare o somiglianze superficiali, del tipo ingl. “cold” – italiano “caldo”, il cui senso è opposto), etc. Le modalità di “esplorazione” di queste relazioni fra elementi del lessico sono pressoché infinite, e procedono di nodo in nodo in qualsiasi direzione su questa ragnatela. Un dizionario che si limiti a presentare dei testi per ogni voce, offrendo magari la possibilità di cercare delle parole al suo interno, è chiaramente al di sotto del suo compito, e rimane piuttosto fermo a una trasposizione digitale della carta.

Naturalmente, i grandi dizionari sono l’ineludibile patrimonio da cui i diversi editori sono partiti per il loro rinnovamento digitale, sicché non era praticamente possibile rifondare queste opere da zero. Piuttosto, la lunga e laboriosa strada verso la loro metamorfosi digitale è passata per un sempre maggiore affinamento del testo esistente, affrancandosi da HTML: invece di avvalersi di una tecnologia di presentazione come HTML, destinata agli ipertesti del web e dotata di marcatori generici come “titolo”, “paragrafo”, “elenco”, etc., pressoché tutti i dizionari sono passati a una tecnologia sorella e complementare, XML. XML è sempre una tecnologia di marcatura, ma il suo lessico è aperto: chiunque può definire un “dialetto” XML per marcare i dati che ritiene opportuno evidenziare all’interno di un testo. Nel caso di un dizionario, avremo quindi non più marcatori come “titolo” o “enfasi”, ma marcatori molto più specializzati e utili come “lemma” o “traducente”.

Questo costituisce un salto notevole da una marcatura destinata a definire la struttura di un ipertesto (HTML) a un’altra specializzata proprio per definire la struttura di una voce lessicografica. Ogni editore qui ha per lo più definito il proprio dialetto XML per marcare i propri dizionari, riconvertendoli da formati digitali preesistenti (HTML o proprietari che fossero). Ciò rende molto più facile e precisa l’estrazione dei dati lessicografici, sparsi nel mare di parole del testo del dizionario, e per conseguenza ricerche più articolate e combinate (ad es., tutte le voci con lemmi terminanti in un certo modo, relative a sostantivi maschili, etimologicamente derivate dal latino, e dotate di almeno tre accezioni distinte). Nondimeno, al fondo rimane il problema che simili dati sono comunque calati nella gabbia del testo, la cui formulazione peraltro risale a periodi anteriori alla marcatura; il processo di marcatura è molto oneroso e dettagliato, e il metatesto rappresentato dai marcatori diviene ben più esteso del testo stesso da essi marcato, con strutture anche assai complesse e nidificate. Anche nel migliore dei testi e dei dialetti XML possibili poi, sempre di un testo si tratta: i dati sono espressi al suo interno, e non sono accessibili in modo diretto e indipendente. Questo limita grandemente la possibilità di disporre di dati completi per ogni voce, e per conseguenza la possibilità di costruire quella rete di fitte interconnessioni che sta alla base stessa del lessico. Rimangono quindi praticamente inattingibili una “navigazione lessicale” come quella che suggerivo prima, di parola in parola seguendo liberamente qualsiasi direttrice, e la definizione stessa del campo semantico di ogni termine come frutto del suo rapporto con tutti gli altri. Per fare un esempio evidente, se il latino hanno più termini per quello che noi italiani chiamiamo semplicemente “bianco”, questo dipende dal fatto che i campi semantici coperti dai termini delle due lingue si sovrappongono solo in modo parziale: il latino “candidus” indica il bianco vivo e brillante, ad esempio del metallo incandescente (questo è l’etimo dello stesso termine italiano), mentre “albus” quello spento della calce. Il rapporto fra “candidus” e “albus” definisce per contrasto i rispettivi campi semantici all’interno della stessa lingua, e quello fra “candidus” e “albus” e “bianco” quelli fra lingue diverse. Si tratta di un esempio davvero minimo, ma si comprenderà che per questa via la stessa nozione di dizionario monolingue o bilingue diviene molto meno significativa: di fatto, questa enorme ragnatela lessicale si può con gli stessi principi estendere a più lingue, sicché il dizionario qui perde qualsiasi connotazione tradizionale, e diviene una sorta di enorme “nuvola” opaca, all’interno della quale si dipanano nodi e connessioni fra un qualsiasi numero di lingue, in una costante e infinita espansione.

Rispetto a questo scenario, apparirà evidente che il tradizionale dizionario “libro”, sia esso cartaceo o digitale, è uno strumento del tutto inadatto a realizzare una moderna e vera opera digitale, dove i dati sono inseriti in modo diretto in un enorme database, in un sistema dove ogni elemento lessicale viene definito dal suo rapporto con tutti gli altri. Si tratta quindi di operare una vera e propria liberazione dei dati lessicografici dalla loro secolare gabbia testuale, per farli espandere e connettere in un universo dove sono organizzati solo secondo i loro principi, e non condizionati dalle limitazioni di una specifica presentazione o tecnologia. In effetti, come concludo provocatoriamente nel libro, il miglior modo per “scrivere” un dizionario, è appunto NON scriverlo: ovvero, non si tratta più di concepirlo come un testo, ma come un organismo complesso e indipendente da una specifica modalità di presentazione. In pratica, questo significa che invece di redarre dei testi, gli autori del dizionario inseriranno dei dati in questo sistema, similmente a quanto si fa nel popolare un qualsiasi database. Ciò rende anche superflui tutti i complessi meccanismi ed espedienti escogitati per compilare e mantenere i dati lessicografici con la loro marcatura, che li preserva dall’essere sommersi dal mare di testo in cui si trovano dispersi. Uno dei problemi pratici comuni a dialetti XML oggi molto popolari in ambito umanistico, primo fra tutti TEI, è proprio la difficoltà d’uso, con il relativo addestramento e disciplina richiesti agli operatori, e i dizionari a base XML non fanno eccezione. In questa nuova prospettiva invece, non si tratterà più di costruire complessi strumenti per aiutare gli operatori nell’ingrato compito della marcatura, semplicemente perché non esisterà più un testo da marcare. Questa “liberazione dei dati” è d’altronde un processo da tempo auspicato e avviato per lo stesso futuro del web, nato come rete di (iper)testi.

Non è qui possibile dilungarsi oltre, ma con questi cenni spero di aver mostrato quanto sia diverso il modo di pensare richiesto da un approccio nativamente e veramente digitale a problemi squisitamente umanistici: dalla carta alla destrutturazione stessa del testo, è un passo lungo decenni e tuttora in corso, ma richiede un’attitudine a pensare ai problemi in modo nuovo, e la capacità di individuare le soluzioni tecnologiche di volta in volta più adatte. L’umanista digitale è quindi un umanista, ma un umanista capace di pensare questioni millenarie in modo nuovo, con l’ausilio offerto dai nuovi modelli di informazione e dalle tecnologie che ne consentono l’implementazione. Non è ovviamente possibile che ogni umanista sia un informatico esperto; e d’altronde, nessuna impresa digitale oggi può essere il prodotto di un singolo. Proprio nella prospettiva del lavoro di squadra, è però necessario che l’umanista sia in grado di modellare i propri problemi in modi nuovi e adatti alla loro metamorfosi digitale, in modo da poter dialogare in modo fruttuoso con gli specialisti di informatica, con una buona base informativa sui metodi di trattamento dei dati e sulle caratteristiche essenziali, i vantaggi e gli svantaggi di ciascuna tecnologia. Per quanto forte possa essere la tentazione di dare ascolto alle sirene della tecnologia che di volta in volta viene presentata ai non specialisti come la soluzione a ogni problema, non si deve infatti pensare che ogni problema sia un chiodo solo perché si ha un martello. Come malignamente sottolinea qualcuno, la tecnologia migliore è quella che si conosce; in realtà, ogni tecnologia ha le sue caratteristiche, finalità, ambiti di applicazione, vantaggi e svantaggi. Di qui la necessità non solo di formare un nuovo modo di pensare, ma anche di fornire un quadro sufficientemente ampio del panorama tecnologico almeno per quanto possibile in un breve corso introduttivo. L’umanista digitale sarà poi il frutto di un percorso e di esperienze molto più lunghe, cui i miei corsi vogliono solo dare un modesto e preliminare avvio.

Quali sono i principali sistemi di rappresentazione digitale del testo?
Il testo e la sua rappresentazione digitale sono ovviamente un aspetto assai rilevante nell’ambito umanistico, donde la notevole attenzione ad esso posta nel libro, pur nell’economia del suo insieme. Non inganni l’esempio appena citato del dizionario: una grande parte dei dati di un umanista sono proprio testi in quanto tali (letterari, epigrafici, etc.), e non come moderni modi di presentare dei dati: d’altra parte, per riprendere quell’esempio, gli stessi dizionari oggi sono frutto anzitutto di spogli di grandi corpora testuali. In questo senso, dopo una breve introduzione al digitale e ai suoi sistemi numerici (primo fra tutti il binario), il libro passa appunto alla rappresentazione digitale del testo, nei suoi due aspetti di base: il testo semplice (plain text), e quello arricchito di formattazione tipografica (rich text).

Nel caso del plain text, poiché ogni dato digitale non è altro che un numero, occorre spiegare come un qualsiasi testo possa essere codificato numericamente. Questo implica considerare le varie codifiche testuali, con un breve sguardo alla loro evoluzione. Come sempre, nella prospettiva del mio approccio gli aspetti storici dell’informatica non sono il fine primario del corso, ma sono introdotti ovunque siano utili a mostrare da un lato il ricorrere di determinati aspetti metodologici, e dall’altro di fornire un quadro più completo capace di spiegare problemi e aspetti altrimenti incomprensibili nelle odierne tecnologie, che sono ovviamente il frutto di una complessa evoluzione di cui portano spesso interessanti eredità. Di norma quindi ripercorro con gli studenti la quasi trentennale evoluzione che ha condotto dalle prime codifiche degli anni Sessanta (per la lingua inglese) all’odierna codifica “universale” Unicode, concepita per rappresentare tutte le lingue esistenti, e le principali morte.

Su questa via sono particolarmente rilevanti alcuni espedienti messi in atto per rappresentare testi complessi anche di lingue non a base latina (come il greco o l’ebraico antico) durante il periodo in cui si disponeva di appena un pugno di caratteri, o altri introdotti più tardi, nella babele di codifiche che precedeva l’era di Unicode. Si tratta di espedienti vivi tuttora, sia per l’eredità digitale che proviene dai pionieristici lavori dei decenni passati (ad esempio, il corpus di una buona parte di testi greci e latini realizzato dal Packard Humanities Institute nei lontani anni Settanta), sia per la persistenza di cattive abitudini dure a morire: senza entrare in dettagli, mi limito a osservare che ancora oggi ci sono redazioni che richiedono che il testo greco venga scritto con un dato font, confondendo completamente il piano del contenuto con quello della presentazione, nella misura in cui quel font è portatore di una codifica arbitraria. Si tratta qui di un’eredità degli anni Ottanta, quando un modo molto pratico e amatoriale di scrivere in greco antico in assenza di una codifica standard era quello di disegnare dei caratteri greci al posto dei codici numerici riservati ai latini. In questo modo, installando un certo font si poteva ad esempio digitare g e ottenere a video una lettera gamma, senza però considerare che il codice numerico era sempre quello della g. La conseguenza pratica era che bastava cambiare font, o dimenticarsi di trasportarlo assieme al testo, per ritrovarsi con un documento illeggibile, in quanto codificato fuori da ogni standard, e dove uno degli strumenti per eccellenza al servizio della veste tipografica del testo (ancora una volta, la sua presentazione) come il font veniva abusato per farsi portatore di una diversa codifica del testo stesso (il contenuto).

Questo è solo un esempio, ma non manca ancora qualche studente che chieda come poter scrivere in greco, o quale font debba adottare; e fino a qualche anno fa, si poteva ancora sentir discutere di quale font utilizzare per un’edizione digitale. Qui dunque la storia delle codifiche e degli espedienti ideati per risolvere la limitatezza del loro repertorio di caratteri è funzionale ad aspetti molto concreti e rilevanti sul piano pratico, ma anche istruttiva su quello metodologico; e questo avviene in molti altri casi, come nell’illustrare gli aspetti di Unicode, o l’evoluzione di tecnologie come HTML.

Sulla via del testo poi il corso prende spunto dal rich text per illustrare tecnologie sempre a base testuale, ma destinate alla marcatura: si tratta anche qui in fondo sempre di testi, dove però alcuni caratteri (quelli dei marcatori) hanno una funzione metatestuale, nel marcare appunto determinate estensioni del testo come portatrici di uno specifico valore semantico. Qui incontriamo in primo luogo HTML con le sue tecnologie correlate (CSS, Javascript), e in secondo luogo XML. Del primo è molto rilevante l’evoluzione, che ancora una volta tende a separare contenuto e presentazione, correggendo la tendenza a confonderle propria di una fase della sua vita; il secondo è oggi una delle tecnologie principi in ambito umanistico, benché destinata a rappresentare dati anche ben oltre documenti di testo. Si tratta sempre di testi, ma capaci di rappresentare ricchi ipertesti (HTML con CSS) o qualsiasi altro dato, anche non relativo a un testo da marcare (dialetti XML).

Proprio sulla linea di queste due tecnologie tanto essenziali nel panorama odierno si possono poi seguire due percorsi didattici: il primo prende le mosse da HTML e riguarda il web e internet, e specialmente la sua recente evoluzione (applicazioni web di nuova generazione e web semantico); il secondo prende le mosse da XML, che in certa misura può essere utilizzato come una banca dati, per introdurre specifiche tecnologie di database, relazionali e non. Il percorso didattico parte dunque dal testo, che pone problemi tutti suoi quando è un fine piuttosto che un mezzo di presentazione, per poi dipanarsi su diverse strade coprendo alcuni aspetti delle tecnologie più diffuse e rilevanti in ambito umanistico. Ma ancora una volta, rimane essenziale distinguere il testo dai modi di presentarlo, che possono essere i più disparati a seconda dei propri scopi, del pubblico cui ci si rivolge, del dispositivo che si utilizza per leggerlo, della tecnologia che si adotta per codificarlo, etc.: come di consueto, un unico contenuto, infinite presentazioni.

Quali strumenti digitali coadiuvano il lavoro scientifico sui testi?
Gli strumenti digitali sono tanto vari e numerosi che non basterebbe un libro a contenerli; esistono interi siti dedicati alla loro sempre parziale e settoriale rassegna, e innumerevoli gruppi di discussione di ambito umanistico. Di fatto, la loro varietà risponde alle innumerevoli esigenze degli studiosi di area umanistica, che si occupano degli aspetti più vari: dalla filologia alla linguistica, dalla storia alla letteratura, dall’epigrafia alla paleografia, dall’archeologia all’archivistica, alle scienze sociali, etc. In tutto il mondo fioriscono continuamente opere e strumenti più o meno validi e destinati a maggiore o minore longevità, ed è questo in effetti uno dei problemi.

Paradossalmente, è più longevo un testo inciso duemila anni fa su pietra di uno codificato digitalmente qualche decennio fa; ed è questo il portato in parte inevitabile della rapidissima evoluzione tecnologica. Non mancano però iniziative (anche europee ed italiane, come CLARIN) nel senso della conservazione e della armonizzazione di questi strumenti digitali, e in ogni caso uno degli scopi dei miei corsi è quello di evidenziare come una buona longevità debba anche essere il frutto di buone scelte a monte del progetto. Non si contano infatti i progetti condannati a precoce obsolescenza da scelte proprietarie o incuranti del contesto tecnologico, e la stessa lezione viene anche dalla vita di alcune delle tecnologie citate nel libro. Ad esempio, è istruttivo osservare come una tecnologia che risponda alla necessità di essere compatibile con il mondo digitale preesistente sia spesso prevalsa su altre proposte concorrenti: si pensi ad esempio a HTML rispetto a XHTML, che si era messo sul binario morto di un’evoluzione incompatibile con il web coevo. Piuttosto quindi che produrre panoramiche necessariamente incomplete e destinate a brevissima vita, mi limito a evidenziare aspetti delle tecnologie e dei metodi alla loro base, cercando di orientare i futuri studiosi a una scelta per quanto possibile consapevole e lungimirante.

In che modo si possono legare Big Data ed informatica umanistica?
Fra le molte etichette in voga per riassumere le grandi direttrici evolutive dell’informatica in tempi recenti un posto di diritto spetta anche ai Big Data, ma il rapporto con l’informatica umanistica è un po’ meno diretto che in altri settori. Essenzialmente, si tratta di tecnologie destinate al trattamento di enormi moli di dati per estrarne modelli e tendenze anche in senso predittivo. Esempi quotidianamente sotto gli occhi di tutti vengono dalla massiccia e capillare raccolta di dati personali fatta da collettori come social network, motori di ricerca, grandi venditori online, ricercatori in ambito medico, etc. In questo senso molte (ma non certo tutte) delle tradizionali discipline umanistiche, come ad esempio quelle legate al mondo classico, cui appartengo per la mia formazione di filologo greco e latino, soffrono del problema opposto: i dati non sono troppi, ma troppo pochi. Questo rende abbastanza velleitario voler applicare in modo diretto e indiscriminato tecnologie connesse ai Big Data a questo settore; ma vi possono certo essere specifici campi di applicazione, alcuni anche esperiti da tempo. Si pensi ad esempio all’uso di tecnologie neuronali per il riconoscimento di modelli come quelli relativi alle scritture a mano, o a determinate classi di materiali molto abbondanti e difficilmente descrivibili se non per via di apprendimento diretto dall’esperienza (citando esempi a caso, magari bolli laterizi). Rapporti quindi se ne danno certamente, ma più fra singole tecnologie sussunte sotto l’ombrello molto ampio dei Big Data e determinati tipi di problemi. Naturalmente, i rapporti si fanno ancora più evidenti nel caso di quelle scienze umane per cui i dati abbondino, come ad esempio sociologia, psicologia, politologia, etc.

Cos’è il web semantico e come evolverà nel futuro?
Sarebbe lungo rispondere a una domanda simile, ma posso dare qualche indizio riprendendo la mia risposta alla prima questione: ho parlato della “liberazione” dei dati, riprendendo espressioni proprie di celebri interventi di Berners-Lee. Sostanzialmente il web del prossimo futuro non sarà più una rete di ipertesti, da cui estrarre dati in modo parziale e laborioso, ma piuttosto una rete di dati, una sorta di grande database mondiale in continua espansione. L’esempio del dizionario richiamato prima offre in certo modo un parallelo: proprio come là si tratta di liberare le informazioni lessicografiche dalla gabbia testuale che le presenta, e modellarle e archiviarle in modo indipendente da un testo, così per il web si tratta di pubblicare dati in modo non mediato, sì da poterli connettere in modo globale e aprirli all’uso da parte di intelligenze artificiali. Il web era nato come una grande rete di documenti ipertestuali, destinati a esser letti da utenti umani; il web semantico sarà una grande rete di dati, destinati a esser utilizzati in primo luogo da macchine. Questo non significa che non potremo “leggere” anche delle tradizionali pagine come facciamo oggi, ma solo che queste saranno essenzialmente un prodotto automatico della selezione e aggregazione di dati fatta da un programma a partire dai dati “nudi”, pubblicati in modo direttamente fruibile. Allo stesso modo, il dizionario di nuova generazione di cui parlavo potrà anche produrre una presentazione dei dati simile a quella del testo tradizionale, per chi lo desideri; ma appunto come presentazione, fra le tante possibili, computata automaticamente a partire da dati a monte, e non più come forma cristallizzata in cui i dati sono racchiusi. Mentre oggi i motori di ricerca devono ricorrere a tecniche raffinatissime per analizzare i testi del web scritti in lingua naturale ed estrarne dati da indicizzare, con tutti i limiti e le ambiguità del caso (ricorda il banale esempio di Homer?), con il web semantico questa analisi dei testi non sarà più necessaria, semplicemente perché in un certo senso non vi saranno più testi, ovvero non saranno gli ipertesti il modo prevalente di pubblicare dati su web.

Proprio come oggi ogni istituzione o azienda pubblica o privata gestisce i propri dati opportunamente modellati e archiviati in database a uso interno, così avverrà nel web semantico, con la capitale differenza che si tratterà di un database globale distribuito nei milioni di “siti” che comporranno il mosaico del web, e modellati tutti secondo uno standard omogeneo e riconosciuto. In questo senso, i futuri motori di ricerca saranno piuttosto orientati a seguire le interconnessioni fra i dati disponibili, operando anche per via deduttiva. Per fare un esempio banale, se un dato sito fornisce l’informazione che Socrate è un uomo, e un altro sito quella che l’uomo è mortale, il sistema sarà in grado di dedurre che Socrate è mortale, e presentare questa deduzione al pari di qualsiasi altro dato.

Perché questo si realizzi occorre ovviamente anzitutto che i dati ricevano una modellazione omogenea e standardizzata; per questo motivo sono stati creati e vengono già ampiamente utilizzati modelli e tecnologie che li rappresentano e possono interrogarli secondo un linguaggio standardizzato (SPARQL), al pari di come oggi ad esempio un database relazionale viene interrogato con un linguaggio altrettanto standardizzato come SQL. Il modello di dati parte dal nucleo più semplice, la cosiddetta tripla, qualcosa di assimilabile a un “giudizio” della logica aristotelica, dove si predica qualcosa di un dato soggetto: ad esempio, “Socrate è un uomo”. In una tripla esistono appunto soggetto, predicato, e oggetto, e database pubblicati su web semantico offrono milioni di triple variamente interconnesse a formare enormi grafi di nodi, sempre aperti a nuove connessioni con altri nodi pubblicati sulla rete.

Naturalmente, per consentire le connessioni bisogna che ogni elemento della tripla sia identificabile in modo univoco; altrimenti non sarebbe possibile sapere se due siti parlino dello stesso “Socrate”, o della stessa nozione di “uomo”. Di fatto, esistono già centinaia di “vocabolari” semantici su web, creati con gli scopi più disparati, dove ogni concetto da esprimere ha ricevuto un suo identificativo, in modo da poter essere riusato da altri per lo stesso scopo. Così, ogni nuova tripla pubblicata su web entra a far parte di un’immensa rete di connessioni, e produce infiniti modi di navigare attraverso queste informazioni, di punto in punto seguendo qualsiasi percorso. Pertanto, il soggetto “Socrate” non è identificato da questo nome proprio italiano, che ovviamente introdurrebbe gli stessi problemi di ambiguità della parola “Socrate” in un testo del web tradizionale; piuttosto, esso riceve una sorta di “codice” universalmente unico che lo identifica e lo differenzia da tutti gli altri omonimi. Per ogni nozione che si voglia esprimere sotto forma di componente di tripla, predicati inclusi (come “è” in “Socrate è un uomo”), esiste un identificativo unico globale. Benché chiunque sia libero di crearne di nuovi per i suoi concetti, la garanzia di unicità è data dallo stesso meccanismo che oggi identifica le pagine o qualsiasi altra risorsa web, cioè quello che sta alla base degli “indirizzi” web: l’URI. Come ogni pagina o in generale ogni risorsa web viene identificata in modo unico rispetto a tutte le altre dal suo indirizzo, così lo stesso meccanismo identificherà ogni concetto rispetto a tutti gli altri. In tal caso non si tratterà di indirizzi che puntano a qualcosa di necessariamente esistente, ma solo di un modo per identificare gli elementi delle triple nel database globale. Un pregio di questo nuovo web è appunto che di fatto si tratta di una serie di tecnologie che si basano in gran parte su quanto già esiste. Il web semantico non è una meta lontana, ma un obiettivo cui ci si approssima per gradi, adattando e trasformando il materiale digitale preesistente secondo progressivi livelli di evoluzione verso il puro dato: non a caso, Berners-Lee ha sintetizzato questi livelli in un celebre sistema di punteggi che va da 1 a 5 stelle, dove ogni stella aggiuntiva corrisponde a un ulteriore affinamento delle pratiche di pubblicazione di contenuti su web. Per citare un esempio noto a tutti, il celebre sito Wikipedia ha già disponibile una sua embrionale forma adatta al web semantico, chiamata Dbpedia (nome che richiama appunto il concetto di database); si tratta di un progetto nutrito dalla comunità degli utenti che mira a estrarre triple dai testi degli articoli dell’enciclopedia, utilizzando naturalmente vocabolari semantici ove possibile, o creandone di nuovi.

Il salto qui è enorme, e le implicazioni innumerevoli e difficilmente prevedibili, né è possibile qui addentrarsi in questo argomento, cui riservo un denso capitolo del libro; ma dovrebbe essere facile comprendere l’abissale differenza che intercorre fra LEGGERE il testo di una pagina HTML e interrogare un potente database modellato secondo principi comuni come un’enorme ragnatela di triple, ciascun elemento delle quali è connesso a innumerevoli altri elementi di altre triple, per via diretta o indiretta (tramite deduzione da parte del software). Qui veramente si tocca ancora una volta con mano come il contenuto (i dati) sia in modo definitivo separato dalle sue infinite diverse presentazioni, in modo da rendere possibile la creazione di sistemi che si nutrono di questo database. Similmente, da tempo oggi le moderne applicazioni web si nutrono di banche dati più o meno proprietarie e implementate con tecnologie e schemi diversi. In effetti, nel ripercorrere l’evoluzione delle applicazioni web si può osservare in atto da tempo una tendenza che conduce in prospettiva al nuovo web: già adesso in gran parte il web non è più tanto direttamente una rete di ipertesti, quanto piuttosto una rete di applicazioni, che dialogano in modo interattivo e complesso con l’utente, e attingono dati da servizi web (API) che pubblicano dati “nudi”, senza mediazioni ipertestuali, in formati standard come JSON o XML. Queste applicazioni girano ormai su qualsiasi dispositivo, e consentono un’esperienza utente paragonabile a quella delle applicazioni tradizionali, senza richiedere installazioni o specifici sistemi operativi: l’unico requisito è che il dispositivo abbia un browser web, sicché HTML diviene piuttosto il mezzo per descrivere delle interfacce grafiche, che quello per strutturare un ipertesto. In futuro altro software avrà il compito di fornire interfacce, ma il principio di base è già operante da tempo: non più testi direttamente pubblicati su web, ma applicazioni che fanno da intermediario fra l’utente e i dati, per fornire la massima interattività e duttilità. Solo, i dati non proverranno più da fonti relativamente limitate e più o meno proprietarie, implementate con le tecnologie e gli schemi più diversi, ma da un unico grande database globale, modellato per triple e accessibile a tutti sia in lettura che in scrittura, pubblicato da macchine e per macchine, che si interporranno fra i contenuti e l’utente cui presentarli. Si tratta di una rivoluzione, che si iscrive però nel solco di una costante evoluzione che va nello stesso senso, ed è questo senso che più preme evidenziare nel libro, indipendentemente dalle singole tecnologie o strumenti oggi disponibili.

Quale futuro a Suo avviso per le Digital Humanities e gli umanisti digitali?
Un po’ provocatoriamente, direi che in prospettiva il futuro dell’umanista digitale coincide con quello dell’umanista tout court; l’umanista sarà sempre tale, un umanista, ma naturalmente opererà nel contesto del suo tempo, servendosi di tutti gli strumenti a sua disposizione, che in futuro saranno sempre più veramente digitali, nel senso che ho cercato di illustrare. Sarà quindi un umanista in grado di pensare il proprio lavoro in modo nuovo, ma iscrivendolo nella stessa millenaria tradizione che lo nutre. Si pensi a quanto già oggi sia profondamente diverso il lavoro dell’umanista rispetto a quello che era nell’Ottocento, a come sia profondamente mutato l’accesso all’informazione e la natura stessa dell’informazione: si pensi solo all’esistenza dei computer e del web; e si tratta di un portato dei tempi talmente scontato che non serve neppure evidenziare. Per il futuro, non sarà diverso; occorre solo il tempo per rendere ovvio quanto ora appare inconsueto o difficile da concepire.

Va peraltro aggiunto che un futuro come ad esempio quello prefigurato dal web semantico è certo un futuro che per gli umanisti in genere e gli antichisti in particolare consente anche un livello di apertura al grande pubblico prima inimmaginabile. Tutti i contenuti pubblicati potranno essere usati in modi neppure concepibili dai loro creatori, da specialisti o meno, proprio perché liberandoli da una specifica presentazione e offrendoli in modo diretto e non mediato nel grande database globale essi potranno essere presentati di volta in volta nei modi più diversi, il che significa non solo visualizzazioni diverse, ma anche selezioni e aggregazioni di contenuti totalmente differenti e calibrate a misura dell’utente, dallo specialista al semplice studente o curioso. Questa “democratizzazione” dei dati potrà quindi magari avere anche il beneficio di dare nuova vita a settori tradizionalmente molto chiusi e specialistici, liberando gli umanisti specie di certi settori dal ruolo di pii necrofori di scienze ritenute inaccessibili o poco interessanti per pubblici più ampi. Nello stesso ambito della ricerca poi la possibilità di condividere in modo operativo tutti i dati prodotti dal lavoro di ognuno non potrà che giovare aprendo a collaborazione e approcci multidisciplinari, dove ogni dato pubblicato è suscettibile di essere utilizzato in modi e con finalità del tutto inimmaginabili dai loro stessi autori. Le prospettive sono insomma davvero innumerevoli, ed è questa possibilità di profondo rinnovamento metodologico e strumentale che rende particolarmente stimolante il mestiere dell’umanista digitale.