A
lessandro Vespignani è professore di informatica e fisica alla Northeastern University di Boston, dove dirige il Network Science Institute. Da anni lavora nel campo delle reti complesse e dei metodi computazionali per prevedere l’evoluzione delle epidemie. Nel 2019 ha pubblicato un saggio intitolato L’algoritmo e l’oracolo (Il Saggiatore) in cui racconta come la rivoluzione digitale, l’intelligenza artificiale e i big data hanno consentito straordinari progressi nel campo delle previsioni scientifiche.
L’epidemia di COVID-19, causata dal coronavirus SARS-CoV-2, probabilmente scoppiata nella città cinese di Wuhan, minaccia di diffondersi in modo massiccio anche in altri paesi grazie alla straordinaria capacità di movimento della nostra specie. Diventa dunque quasi scontato dire che in questo scenario i dati che descrivono dove ci troviamo e come ci spostiamo sono di fondamentale importanza per tentare di prevedere il modo in cui un virus si diffonderà tra la popolazione.
L’epidemiologia computazionale, la disciplina che utilizza modelli predittivi in campo epidemiologico, è davvero la nuova arma che abbiamo per fronteggiare le epidemie?
Le epidemie vengono combattute sia “in prima linea”, dai medici e dagli infermieri, che spesso sono i veri eroi di queste battaglie, sia nelle “retrovie”, grazie all’epidemiologia. Partiamo dal principio che esistono diversi modi di fare epidemiologia. Quella computazionale si è sviluppata negli ultimi venti-trent’anni come branca di quella classica. Svolge il lavoro, per così dire, di intelligence. Tenta cioè di prevedere le mosse del “nemico”, in questo caso il virus responsabile dell’epidemia, e di comprendere aspetti del fenomeno che altrimenti ci sarebbero sconosciuti o che verrebbero poi scoperti sul campo in modo imprevisto e tardivo. È un approccio che permette di affrontare il problema in maniera più efficiente.
Come funziona il vostro lavoro?
Produce previsioni in campo epidemiologico attraverso un metodo simile a quello utilizzato per le previsioni metereologiche. Prendiamo l’epidemia di COVID-19 attualmente in corso. Sappiamo che in Cina e non solo è stato confermato un certo numero di casi. Noi usiamo dei modelli matematici che integrano il meccanismo di trasmissione della malattia (cioè come la malattia si trasmette da individuo a individuo) con una simulazione molto realistica della popolazione mondiale, che ricrea il modo in cui viviamo, come ci muoviamo e come interagiamo fra noi.
Che tipo di dati occorre per far lavorare questi modelli?
Usiamo, per esempio, mappe di popolazione con una griglia di 1 km per 1 km, attraverso le quali possiamo sapere quante persone ci sono in quell’area e come si spostano in altre. Questo perché conosciamo quali sono tutti i voli giornalieri nel mondo e sappiamo chi va dove. Attenzione però: non conosciamo nome e cognome di chi vola, ma solo quante persone viaggiano da una città a un’altra. Utilizziamo tutti i dati dell’International Air Transport Association (IATA), un’organizzazione mondiale delle compagnie aeree, e li integriamo con altri, come quelli delle stazioni ferroviarie, degli autobus, eccetera. Solo vent’anni fa avere a disposizione questo tipo di dati era pressoché impossibile. Oggi, grazie ai processi di digitalizzazione e di “datificazione”, abbiamo database aggiornati in tempo reale che ci mostrano come si muove la popolazione mondiale.
Nel libro lei spiega come l’avvento dell’intelligenza artificiale abbia reso possibile ottenere nuove tipologie di dati, sempre più precisi. In che modo?
Certamente negli ultimi dieci anni l’epidemiologia computazionale è cambiata. Prima il lavoro era basato su modelli matematici e dati epidemiologici. Oggi utilizziamo anche l’intelligenza artificiale, il machine learning e tutto ciò che chiamiamo big data. Grazie all’intelligenza artificiale possiamo unire, per esempio, il dato che ci dice quante persone vivono in una certa area (per quanto riguarda l’Italia, può essere un dato Istat) alle immagini satellitari che segnalano il livello di illuminazione generato da città e villaggi. Gli algoritmi sono in grado di legare questi due dati, fornendo mappe che illustrano la distribuzione della popolazione con una precisione fenomenale. Anche nel caso di aree remote, come l’Africa sub-sahariana. Durante l’epidemia di ebola del 2013-2014 abbiamo scoperto altri strumenti utili, come l’uso di immagini satellitari per identificare i singoli centri abitati, operazione che permette di ricostruire una “popolazione sintetica”, cioè non reale ma indicativa di quella zona, casa per casa.
Ormai utilizziamo costantemente diversi dispositivi connessi in rete: da questi dati è possibile ottenere informazioni utili da utilizzare nei modelli epidemiologici?
Il nostro smartphone, il nostro orologio, il nostro televisore e tutti gli altri dispositivi che utilizziamo originano terabyte su terabyte di dati ogni singolo giorno. Sono dati che forniscono informazioni sui nostri spostamenti (i navigatori e i sistemi GPS), su ciò che ci piace, su chi incontriamo, sui luoghi in cui passiamo le ore della giornata, eccetera. Queste sono tutte informazioni che durante un’epidemia è fondamentale conoscere per comprendere che cosa sta succedendo. È ovvio che questi dati possono essere utilizzati in tanti altri modi, anche invasivi, per capire cosa venderci sulla base delle nostre preferenze, fino a stilare dei profili psicometrici che, in parte, possono essere usati per manipolarci politicamente e non solo.
Ottenuti tutti i dati necessari, come procedete?
Utilizziamo dei modelli che ci forniscono proiezioni di tipo probabilistico sull’evoluzione di un’epidemia. Per cui possiamo provare a capire, nel caso dell’epidemia in corso, come evolverà nei prossimi giorni. Il funzionamento, come dicevamo prima, è simile a quello di un grande modello meteorologico, ma nel caso delle epidemie ci sono alcuni aspetti che complicano la situazione. Quando si prevede l’arrivo di un uragano con una previsione metereologica, l’uragano se ne infischierà di tutti i calcoli probabilistici e farà il suo corso. Se invece si fanno delle previsioni sull’evoluzione di un’epidemia, tutte le forze che sono al lavoro per contrastarla potranno prendere misure di contenimento e di mitigazione, modificandone così l’evoluzione. Quindi conoscere la traiettoria futura dell’epidemia è ciò che la fa cambiare. Questo fa sì che le previsioni epidemiologiche debbano essere costantemente riviste.
E grazie a queste previsioni potete immaginare anche diversi tipi di intervento?
Possiamo costruire degli scenari. Quale sarà l’impatto sull’evoluzione dell’epidemia se chiudiamo tutte le scuole per tre mesi? O se consigliamo a tutti di optare per il telelavoro da domani? O se sospendiamo i voli per un mese? Grazie agli scenari che l’epidemiologia computazionale permette di creare possiamo capire meglio che cosa succederebbe se optassimo per un intervento invece di un altro. Inoltre, possiamo utilizzare questi modelli come “macchine del passato”.
Nel caso di COVID-19 come sono stati utilizzati questi modelli?
Grazie a loro sappiamo che l’epidemia di COVID-19 è cominciata agli inizi di dicembre, o più probabilmente nella seconda metà di novembre, ma concretamente abbiamo iniziato a studiare la situazione a metà gennaio. Guardando i dati in nostro possesso, che indicano quanti casi confermati abbiamo oggi, i modelli ci consentono di provare a capire cosa è successo in precedenza e talvolta anche di sopperire a una mancata sorveglianza della situazione. Allo scoppio dell’epidemia in Cina non sapevamo quanto fosse estesa, ma esaminando i casi segnalati in altri paesi e sapendo quanta gente viaggia ogni giorno attraverso l’aeroporto di Wuhan, abbiamo ottenuto delle stime sulla dimensione dell’epidemia nella città in cui probabilmente è scoppiata.
Da chi sono utilizzate poi le informazioni ottenute da gruppi di ricerca come il suo a partire dai modelli?
I fruitori di questi dati sono tanti, e variano a seconda del contesto. Ci sono le agenzie che si occupano di salute pubblica: l’Organizzazione Mondiale per la Sanità (OMS) a livello globale e gli organismi preposti a livello nazionale, fra cui i Centri per la prevenzione e il controllo delle malattie degli Stati Uniti (CDC), il loro omologo europeo, l’ECDC, e i ministeri della salute dei vari paesi. In occasione dei recenti outbreak di ebola in Repubblica Democratica del Congo, questo genere di informazione è stato gestito dall’OMS in collaborazione con altre organizzazioni internazionali (Medici Senza Frontiere, per esempio) e le istituzioni locali. In un caso globale come l’attuale epidemia, tutti questi organismi sono coinvolti nella risposta.
C’è qualche conclusione generale che potete dire di aver tratto in questi anni di studio sull’evoluzione delle epidemie?
Spesso abbiamo capito che l’epidemia è iniziata molto prima rispetto al momento in cui è diventata una chiara emergenza. È il caso dell’epidemia causata dal virus Zika in Sud America nel 2016. Probabilmente è iniziata almeno un anno prima nella Polinesia francese, sede di un focolaio. In casi come questo possiamo smontare narrazioni fasulle e basarci su una versione decisamente più affidabile di come si possono essere svolti i fatti. Nel caso dell’epidemia di influenza non stagionale del 2009, l’influenza “suina” o A-H1N1, i modelli hanno subito fornito dei risultati chiarissimi: era inutile agire chiudendo gli aeroporti perché contro un’epidemia influenzale di questo tipo, in cui tantissime persone sono asintomatiche, cioè trasmettono la malattia nonostante stiano bene, il risultato sarebbe stato soltanto un ritardo nella diffusione di un paio di settimane. I modelli ci permettono di ragionare al di là del pensiero lineare. Ci dicono: di fronte a epidemie che hanno una crescita di tipo esponenziale, e che sono quindi fenomeni complessi, provvedimenti di tipo lineare, come la sospensione dei voli, sono pressoché inutili.
E, come raccontava, il suo gruppo di ricerca ora sta lavorando anche sui dati relativi all’epidemia di COVID-19.
Sì. Mai come in questo caso la modellistica computazionale è entrata tanto in gioco. E sta ricoprendo un ruolo importante per capire cosa sta succedendo, soprattutto in Cina. Stiamo dando supporto di intelligence. Stiamo tentando di capire quanti sono effettivamente i casi. Ciò che dico sempre alle persone che stanno dietro ai “piccoli numeri”, per esempio il numero di nuovi casi giornalieri, è che in questo tipo di epidemie si tratta di dati, diciamo così, poco interessanti. Questo perché solitamente i numeri effettivi sono maggiori. Quello che si riesce a misurare è sempre la punta dell’iceberg.
Come mai?
I motivi sono essenzialmente due. In primo luogo persone con sintomi leggeri, come un raffreddore, non vanno certo in ospedale, finendo così per non essere conteggiati. Secondariamente, i numeri sono così grandi che il sistema si occupa soltanto di quei casi che hanno una sintomatologia clinica rilevante. Inoltre, fare test di conferma per accertare ogni caso diventa praticamente impossibile quando il fenomeno diventa così esteso.
Cosa possiamo aspettarci dall’evoluzione dell’epidemia di COVID-19?
Ogni persona che fa il mio lavoro ti dirà che i circa 70.000 casi riportati oggi nella sola Cina sono soltanto la punta dell’iceberg. Siamo probabilmente più vicini ai 500.000 casi, concentrati soprattutto nella regione di Wuhan. Se da un lato questa può sembrare una bruttissima notizia, dall’altro significa che il tasso di mortalità è probabilmente dieci volte più basso di quello valutato oggi. Quindi è probabile che questo evento non sarà affatto la fine del mondo, come molti media lo stanno dipingendo in queste settimane. Avrà sicuramente un impatto sul sistema sanitario, ma comparabile a una pessima stagione influenzale o poco più. Ora stiamo tentando di capire se questa epidemia potrà essere contenuta in Cina. Ormai pare che questo sia un obiettivo molto difficile da raggiungere. Probabilmente dovrà essere gestita a livello globale. È certamente un evento da prendere sul serio e al quale i sistemi sanitari si devono preparare, mettendo insieme misure preventive e contenitive. Ma senza panico e senza allarmismi.
Quali sono gli aspetti di questa disciplina, e in generale di questi argomenti, che il grande pubblico fatica a comprendere?
La difficoltà maggiore rimane il pensiero probabilistico. Mi è d’aiuto utilizzare l’analogia con le previsioni metereologiche, perché a queste ormai le persone si sono abituate e hanno iniziato a comprenderle. A tutti noi piace avere delle previsioni che siano binarie: sì oppure no. Ma nessun servizio meteo dirà “domani piove”, bensì dirà “c’è una probabilità dell’80% che domani piova”. Una delle cose che resta difficile far capire è che se domani non piove, la previsione è comunque corretta, perché nella previsione c’era un 20% di probabilità che non piovesse. Anche nel caso delle previsioni politiche la probabilità è difficile da comprendere. Quando si parla di previsioni che riguardano la sfera sociale, le difficoltà aumentano.
Come evolverà nei prossimi anni la previsione delle epidemie?
È una disciplina giovane, non ha nemmeno vent’anni. Ogni tanto inciampiamo, ma gli errori e i fallimenti servono a migliorare. Il fallimento di Google Flu Trends (GFT) è esemplificativo da questo punto di vista. Ma resta un campo in crescita. Come scrivo nel mio libro, molto spesso si discute di big data e di violazione della privacy. Io sto cercando di attirare l’attenzione sul fatto che queste sono questioni di ieri. Ormai siamo in una nuova fase. Discipline d’avanguardia che lavorano con le previsioni iniziano a occuparsi dei singoli individui e non più delle “popolazioni sintetiche” di cui parlavamo prima. Dobbiamo quindi porci dei limiti, che sono decisamente più difficili da definire di quanto lo sia decidere quali dati devono essere protetti da privacy o meno. Perché in tal caso il problema è propriamente l’etica del prevedere. E cioè: è giusto o meno che io preveda? Anche se non infrango la privacy, ma grazie a degli algoritmi riesco a determinare che tu non sei adatto per questo lavoro, sto procedendo in modo etico o no?