L'Occhio della macchina, Simone ArcagniProf. Simone Arcagni, Lei è autore del libro L’occhio della macchina edito da Einaudi: qual è l’importanza per la tecnologia odierna del visivo computazionale?
Fondamentale: la computer vision, la branca dell’Informatica che abilita i computer a riconoscere le immagini e addirittura a interpretarle, è al momento quella che raccoglie i maggiori investimenti: si pensi all’automotive con la macchina che guida in autonomia. I droni a guida autonoma, i sistemi di riconoscimento facciale, i sistemi industriali di riconoscimento immagini. Se poi allarghiamo il campo all’imaging, alla computer graphics e alla digital photography… pensate alle ricadute nei sistemi di sicurezza e sorveglianza, nel medical imaging, nell’industria del cinema e dei videogiochi nella realtà virtuale e in quella aumentata…

Quali sono le radici matematiche della visione computazionale?
Il codice innanzitutto. La visione della macchina è la visione del computer che traduce tutto in codice alfanumerico. Una natura profondamente diversa da quella ottica e chimica per esempio della fotografia e del cinema. Inoltre è il bit e dell’algoritmo e quindi di una matematica diciamo “complessa”. Questo porta a una natura differente, che significa anche potenzialità differenti. Per il computer tutto è trascrivibile come dato e quindi processabile, non ci sono limiti (virtualmente) alla mole di dati da processare, al numero di immagini da processare o alla possibilità di immagazzinare dati come se fossero visivi.

In che modo l’occhio tecnologico tende all’intelligenza, e con quali conseguenze?
La computer vision nasce all’interno dei laboratori di intelligenza artificiale. L’idea è quella di sviluppare un occhio digitale. Un occhio sempre più autonomo: si pensi alle reti neurali che vengono alimentate dai giganteschi archivi visivi per fare training alla macchina di modo che, non solo riconosca le immagini, ma apprenda a riconoscerle da sé (machine learning). Visivo e autonomia sempre più avanzata (vogliamo chiamarla intelligenza artificiale) vanno a braccetto.

Vedere significa fondamentalmente conoscere e comprendere: i primi test per l’intelligenza artificiale infatti si basavano sul gioco degli scacchi dove la macchina doveva vedere il campo da gioco, apprendere le regole, imparare le strategie attraverso le informazioni immesse e poi guardare la partita nel suo svolgersi. Ecco la connessione è proprio questa: macchine che vedono, apprendono, immagazzinano elaborano e fanno scelte in autonomia. Pensate a Hal 9000 l’intelligenza artificiale di 2001 Odissea nello spazio, il film di Stanley Kubrick. Hal è un occhio che vede, ma che dialoga anche con gli astronauti… gioca a scacchi (non a caso!). Ma poi quando il protagonista dell’episodio deve disattivarlo… deve ucciderlo… non frantuma l’occhio, bensì si reca nel suo cervello, nel sistema di elaborazione e disconnette i diversi file andando a privarlo di informazioni e di memoria un poco alla volta. L’occhio della macchina è così esemplificato in una intelligenza basata su dati, memoria, elaboratore, sensori e vista: dove vista e elaboratore giocano un ruolo fondamentale.

Quali confini umani può superare lo sguardo delle macchine?
Fondamentalmente quelli quantitativi. Nel digitale i limiti di dati da elaborare sono tendenti all’infinito e una macchina con memoria avanzata può elaborarli davvero velocemente. Da questo punto di vista la vista dell’uomo e la memoria dell’uomo sono limitate rispetto alla macchina. Inoltre ci sono poi i limiti del campo visivo: si possono avere camere che vedono gli ultravioletti, sensori che recepiscono come visivo il movimento, camere termiche e così via. L’imaging medico può sommare tomografie e radiografie a dati proveniente da camere endoscopiche e sensori differenti per dare una visione non solo dall’interno di un essere vivente ma anche diacronica. Con la realtà aumentata, la mixed reality e la realtà virtuale possiamo materializzare visioni tridimensionali, quasi concrete come fossero ologrammi in grado di competere con il visivo reale.

Ma prendiamo alcuni esempi: il Macroscopio, l’Hyperimaging e il LIDAR.
Il macroscopio è un sistema di software e algoritmi che sfrutta l’enorme mole di dati generati dal cosiddetto “Internet delle cose” al fine di organizzare tutte le informazioni relative al mondo fisico. Analizzando i big data, che crescono in volumi esponenziali, il macroscopio tende a fornire una sostanziale visione totalizzante dei fenomeni.

L’Hyperimaging è quel ramo della Computer Vision che abilita la macchina a vedere e predire il visibile oltre lo spettro della luce, combinando dispositivi di analisi di immagini a onde millimetriche, videocamere a varia visibilità e sensori. L’Hyperimaging è una generalizzazione dell’Imaging multispettrale, si tratta, in pratica, di acquisire immagini di intensità diverse in varie bande dello spettro elettromagnetico e metterle insieme. La sfida tecnologica risiede nel combinarle insieme su spettro continuo. Le immagini della stessa scena su tutte le frequenze possibili vanno a creare un’unica immagine che – in qualche modo – si situa al di fuori dallo spettro visivo.

LIDAR (Light Detection and Ranging o Laser Imaging Detection and Ranging) è una tecnica di telerilevamento in grado di determinare la distanza di un oggetto o di una superficie utilizzando un impulso laser. Come il radar lavora per retroazione, calcola, cioè, la distanza dell’oggetto misurando il tempo trascorso fra l’emissione dell’impulso e la ricezione del segnale retrodiffuso. Si tratta di un particolare occhio che sfrutta il fascio coerente di luce del laser in una precisa lunghezza d’onda e che viene indi- rizzato verso l’orizzonte da “vedere”. I LIDAR potenzialmente vedono tutto, a 360°, senza gli angoli bui della vista umana. Vista che superano anche per l’ampiezza dello spettro visivo che possono mettere in campo, e inoltre ridefiniscono l’atto del vedere tramite sensori e dati geolocalizzati.

Come evolverà in futuro, a Suo avviso, la visione computazionale?
In senso biologico. La tecnologia sta cambiando, tende a non costruire più strumenti in grado di svolgere una funzione, ma macchine complesse, sempre più autonome che richiedono un rapporto costante con noi in un interscambio di informazioni. Si parla anche di simbiosi: un rapporto, se non paritetico, comunque di scambio, in cui le tecnologie tendono a trasformarsi in entità con una loro significativa autonomia. Una tecnologia che richiede partecipazione, coinvolgimento, scambio. Da una parte si intreccerà con i dati biometrici dall’altra tenderà sempre più a essere “alter-ego” affiancandoci, consigliandoci, correggendoci persino.