N ella storia recente dell’intelligenza artificiale c’è una data spartiacque: il 30 settembre 2012. Se volessimo segnare il momento esatto in cui è iniziata la rivoluzione tecnologica in cui oggi siamo immersi, sarebbe con tutta probabilità questa la data da considerare. È in quel giorno, infatti, che un sistema di intelligenza artificiale noto come AlexNet vince la ImageNet Challenge: una gara annuale durante la quale si sfidano i migliori sistemi per il riconoscimento immagini, addestrati tramite il dataset fotografico noto appunto come ImageNet. Dire che AlexNet abbia semplicemente sconfitto gli avversari sarebbe però riduttivo: l’algoritmo di riconoscimento immagini sviluppato all’Università di Toronto ha infatti stracciato la concorrenza, raggiungendo un livello di accuratezza mai visto prima, che si avvicina in maniera sorprendente all’abilità degli esseri umani di distinguere e catalogare ciò che vedono.
Per la precisione, AlexNet ha raggiunto un livello di accuratezza dell’85%, mentre il secondo classificato si è fermato al 74%. Solo due anni prima, il vincitore non aveva superato quota 71%. Il salto qualitativo di AlexNet non è quindi stato solo enorme, ma improvviso e imprevisto da tutti gli addetti ai lavori. Com’è potuto accadere? La rete neurale alla base di AlexNet era sicuramente molto vasta per i tempi, dotata di 650mila neuroni artificiali, che formano una rete di 630 milioni di collegamenti passando attraverso 60 milioni di pesi (o parametri), il cui compito – tramite il classico processo di tentativi ed errori – è di rafforzare i collegamenti che hanno portato al risultato corretto e di indebolire quelli che invece hanno portato a esiti sbagliati. L’aspetto più interessante non riguarda però le dimensioni del modello, ma il modello in sé. A vincere l’ImageNet Challenge era stata, per l’appunto, una rete neurale basata su machine learning: una tecnologia vecchia ormai di decenni e che da lungo tempo era stata praticamente abbandonata dalla comunità scientifica, durante il periodo noto come “inverno dell’IA”.
Adesso – all’improvviso, senza che nessuno se l’aspettasse – questo vecchio sistema era stato riesumato dagli scantinati delle università e aveva travolto il mondo, dando vita a un’accelerazione tecnologica che, in dieci anni esatti, ci ha portati da quel primo successo all’epoca di ChatGPT e delle intelligenze artificiali generative (che sono sempre basate su machine/deep learning), passando per l’applicazione di questa tecnologia nei settori dei social network, dello streaming, dell’e-commerce, della sorveglianza, delle armi autonome, della sanità. Un’accelerazione resa possibile dalla capacità di sfruttare la capacità dell’IA di scovare correlazioni statistiche in un mare di dati per fare previsioni o prendere decisioni, come associare un volto a un’identità.
Il salto qualitativo di AlexNet non è stato solo enorme, ma improvviso e imprevisto da tutti gli addetti ai lavori.
Dopo decenni di insuccessi e frustrazioni, quel 30 settembre 2012 è cambiato tutto. Ma ovviamente anche dietro quel momento spartiacque c’è una lunga storia. E osservare i nomi degli autori di AlexNet aiuta a ripercorrerla: uno dei tre scienziati che hanno progettato il modello è infatti Geoffrey Hinton, pioniere del machine learning fin dagli anni Ottanta che, per mettere a punto AlexNet, si era basato sulla rete neurale sviluppata a quel tempo da un suo pari, Yann LeCun. Questi nomi rappresentano delle vere e proprie celebrità nel campo dell’intelligenza artificiale: vincitori nel 2018, assieme a Yoshua Bengio, del Turing Award (il “Nobel dell’Informatica”) proprio per le loro conquiste nel campo del deep learning, LeCun e Hinton sono i “padrini” di questo campo di ricerca, successivamente assunti – con stipendi da star – dai più grandi colossi della Silicon Valley (per la precisione, Hinton ha lavorato per dieci anni a Google e LeCun è tuttora a Meta). Un altro nome importante che compare tra gli sviluppatori di AlexNet è quello di Ilya Sutskever, poi diventato noto in quanto co-fondatore ed ex chief scientist di OpenAI (il terzo membro del team è Alex Krizhevsky, da cui AlexNet ha preso il nome).
All’epoca, l’interesse di addetti ai lavori e media si era però concentrato soprattutto sugli algoritmi che avevano dato il via alla rivoluzione dell’intelligenza artificiale, e molto meno invece sulla materia prima necessaria per addestrare e quindi far funzionare quegli stessi algoritmi, ossia i dati. Non è una novità: c’è voluto molto tempo prima che si iniziasse a prestare la dovuta attenzione alla cruciale questione dei dati. Una sottovalutazione che spiega anche la notorietà relativamente scarsa di una quarta persona che – assieme al suo team – ha indirettamente reso possibile il trionfo di AlexNet: il nome di questa persona è Fei-Fei Li, allora come oggi docente all’Università di Stanford.
È infatti Fei-Fei Li ad aver dato vita a ImageNet, senza il quale AlexNet non avrebbe mai trovato pane per i suoi denti e un dataset sufficientemente ampio da consentirgli di dimostrare le sue potenzialità. ImageNet rappresenta una storia a sé: la sua progettazione ha infatti richiesto anni ed è stata portata avanti nonostante lo scetticismo e l’ostilità di una gran parte del mondo accademico, superando una marea di ostacoli tecnici e logistici, grazie anche a una caparbietà che a tratti ha sconfinato nell’ossessione. Ad ammetterlo è la stessa a Fei-Fei Li nel memoir Tutti i mondi che vedo (Luiss University Press, 2024), nel quale la stessa Li racconta tutte le principali tappe, personali e professionali, che l’hanno portata a essere una protagonista di primissimo piano nel mondo dell’intelligenza artificiale.
La progettazione di ImageNet è stata portata avanti nonostante lo scetticismo e l’ostilità di una gran parte del mondo accademico.
Ed è innegabile che Fei-Fei Li, di mondi, ne abbia visti tanti. Nata nel 1976 in Cina, in una famiglia della classe media e decisamente anticonformista per gli standard di allora (il nonno materno di Fei-Fei Li era in effetti legato al Kuomintang, il partito sconfitto da Mao e rifugiatosi a Taiwan), Li si trasferisce negli Stati Uniti con il padre e la madre dopo le proteste di piazza Tienanmen, ritrovandosi catapultata in New Jersey nel pieno dell’adolescenza. Dopo aver visto il mondo cinese, Li conosce così il mondo americano, anzi i tanti mondi americani: quello di una ragazza cinese che non parla inglese e vive in una comunità di immigrati, quello di una studentessa-lavoratrice (nella lavanderia di famiglia faticosamente aperta) che riesce ad accedere a Princeton grazie a una borsa di studio, quello di donna ricercatrice al CalTech in un ambiente dominato da uomini, quello di scienziata che vedrà dipanarsi davanti ai propri occhi – e grazie anche al suo lavoro – la rivoluzione dell’intelligenza artificiale.
Tutti i mondi che vedo è un memoir ed è anche un saggio sulla storia dell’intelligenza artificiale, con le rispettive trame che restano nettamente distinte nella prima parte del libro. Li racconta infatti la propria vicenda biografica alternata alla storia del Perceptron (il sistema informatico che, già negli anni Cinquanta fu alla base delle reti neurali), della conferenza di Dartmouth durante la quale, sempre negli anni Cinquanta, venne coniato il termine “intelligenza artificiale”, o del già citato inverno dell’IA iniziato negli anni Ottanta. Ma le due vicende, quella di Li e quella dell’intelligenza artificiale, nel corso delle pagine si avvicinano sempre di più, fino a fondersi in un tutt’uno inestricabile, in cui un elemento non è più distinguibile dall’altro e in cui i due ambiti si influenzano a vicenda. È ad esempio l’esperienza da caregiver nei confronti della madre malata che sprona Fei-Fei Li a occuparsi delle potenzialità della IA in ambito sanitario.
Il focus di Li sulla computer vision e la possibilità di sviluppare macchine in grado di riconoscere gli oggetti ci trasporta però anche in mondi apparentemente lontani dalla tecnologia, per esempio quelli della filosofia e delle neuroscienze, che hanno entrambe indagato le radici della nostra capacità di concepire e categorizzare ciò che vediamo. Nelle parole di Li:
la percezione visiva si basa sulla categorizzazione e il cervello suddivide spontaneamente i dettagli di quello che vediamo in termini più generici che per noi hanno un significato, come oggetti, persone, luoghi ed eventi. […] Anziché seppellirci sotto gli innumerevoli dettagli di luce, colore e forma, la visione trasforma il nostro mondo in concetti discreti che possiamo descrivere a parole: idee utili, disposte intorno a noi come una mappa.
Temi che risalgono almeno ad Aristotele e che indirizzano Fei-Fei Li verso nuovi dilemmi: quante parole? Quante idee? Quale mappa? Domande che riguardano l’essere umano, ma che hanno il fine di comprendere come tutto ciò possa essere utilizzato per dotare le macchine delle nostre stesse competenze, cercando di aggirare le mancanze di cui le macchine soffrivano al tempo e di cui soffrono ancora oggi. Tra le varie carenze, c’è per esempio l’incapacità degli algoritmi di generalizzare la conoscenza:
più volte, algoritmi che sembravano aver ricevuto un addestramento efficace non erano in grado di applicare quello che avevano appreso – o che avrebbero dovuto apprendere – nel mondo reale. In sostanza erano l’opposto della percezione umana, definita dalla sua capacità di generalizzazione. La generalizzazione ci rende flessibili, adattabili, perfino creativi, pronti a imbrigliare la forza di nuove idee anziché languire dentro i confini dell’esperienza passata. Qualsiasi creatura priva di una simile capacità verrebbe subito travolta dall’imprevedibilità del mondo naturale, e questo la rende un elemento cruciale di una mente biologicamente evoluta.
Strettamente collegata alla visione è anche la capacità di relazionarsi con l’esterno, con ciò che ci circonda. In poche parole, di usare i nostri sensi per confrontarci con l’ambiente. Un’abilità che le macchine non hanno – se non in forma ridottissima, embrionale – e che secondo molti scienziati potrebbe essere l’ostacolo principale da superare: se si vuole dotarle di una vera intelligenza, le macchine devono insomma interagire con il mondo fisico, e non solo con quello digitale.
È sufficiente una potenza di calcolo e una mole di dati sempre superiori, unite a reti neurali sempre più grandi, per dare vita a una vera intelligenza artificiale?
Sono tutte queste riflessioni che – allontanandola dal lavoro dei colleghi, focalizzati solo sugli algoritmi – convincono Fei-Fei Li dell’importanza fondamentale dei dati e della categorizzazione di questi. Un’intuizione che la porterà a imbarcarsi in un’impresa, per l’epoca, mostruosa: la costruzione di un dataset contenente quindici milioni di immagini suddivise in 22mila categorie. Un’impresa durata anni e che ha più volte rischiato di essere abbandonata, ma che ha portato alla nascita di ImageNet: un dataset di dimensioni mai viste prima e che ha permesso, incontrando lungo la strada AlexNet, di lanciare a tutta velocità l’epoca del deep learning.
Questa enfasi sulle dimensioni e sulla quantità ha portato Fei-Fei Li a prendere posizione su una questione che da anni è dibattuta dagli scienziati informatici: è sufficiente una potenza di calcolo e una mole di dati sempre superiori, unite a reti neurali sempre più grandi, per dare vita a una vera intelligenza artificiale? O serve invece un salto qualitativo ancora là da venire? Sul tema, di cruciale importanza per gli sviluppi futuri, Li scrive:
il cervello è forse la migliore dimostrazione immaginabile della regola per cui, a una scala sufficientemente grande, la quantità possiede una qualità tutta sua. Quando questi meccanismi elementari vengono replicati 100 miliardi di volte, con un ordine di grandezza di 10^11 connessioni tra i neuroni, accade qualcosa di trascendentale. La materia diventa in qualche modo una mente, generando amore, gioia, tristezza, rabbia, paure e risate, per non parlare delle nostre capacità scientifiche, artistiche, musicali e matematiche.
Certo, Li sta parlando del cervello umano. Ma è chiaro che lo stesso discorso, nella sua interpretazione, si applica alle reti neurali, con conseguenze non sempre piacevoli, per una scienziata. Come spiega verso la fine del libro,
nessuno poteva negare che le reti neurali stessero vivendo un’età dell’abbondanza. Quantità sbalorditive di dati, architetture profondamente stratificate ed ettari di silicio interconnessi avevano fatto davvero una differenza epocale. Cosa significava per la scienza? Cosa diceva dei nostri tentativi intellettuali se il segreto del nostro lavoro poteva ridursi a una cosa così palesemente quantitativa? A una cosa che, in fin dei conti, sembrava forza bruta?
Non è l’unico momento in cui Li sembra guardare ai suoi traguardi con un certo scoramento. La stessa enorme importanza attribuita alla quantità dei dati, a dispetto della loro qualità, è anche ciò che ha portato a sviluppare macchine cariche di bias nei confronti delle categorie di persone più marginalizzate – immigrati, individui con disabilità, donne e non solo – e quindi meno rappresentate nei dataset (la stessa ImageNet è stata al centro di asprissime, e giustificate, polemiche per il modo in cui le immagini sono state categorizzate utilizzando rozzi stereotipi, ma è un tema di cui Li non parla se non con un velocissimo accenno).
L’accelerazione formidabile del settore, e la quantità stratosferiche di risorse che esso richiede, ha infine spostato – attorno al 2016 – il baricentro della ricerca dall’accademia ai colossi della Silicon Valley, che hanno drenato tutti i migliori talenti, cambiando le regole del gioco e trasformando un settore di ricerca avanzata in un oligopolio commerciale che rischia di accentrare ulteriormente il potere nelle mani di pochi tecno-miliardari. Ma questa è un’altra storia. La storia di una nuova epoca tecnologica che, secondo Li, potrebbe pareggiare per importanza le scoperte della fisica dei tempi di Newton e dare forma a un nuovo paradigma scientifico. Un nuovo mondo sta sorgendo davanti ai nostri occhi: un mondo che nasce anche grazie a quelli che Fei-Fei Li ha osservato, e affrontato, durante la sua straordinaria, avvincente, ossessiva vita da autoproclamata nerd.