La rivoluzione degli algoritmi nel mondo dell’arte

Perché i nuovi software come Dall-e e Midjourney daranno una scossa all’arte visiva pari all’avvento della fotografia e della computer graphics.

Francesco D'Isa è filosofo e artista visivo, dopo l’esordio con I. (Nottetempo, 2011), ha pubblicato romanzi come Anna (effequ 2014), Ultimo piano (Imprimatur 2015), La Stanza di Therese (Tunué, 2017) e saggi per Hoepli e Newton Compton. Direttore editoriale dell’Indiscreto, scrive e disegna per varie riviste.

Share Share

E ro poco più di un ragazzo quando iniziai a esplorare il mondo dell’arte digitale, affascinato dalle straordinarie potenzialità di software come Photoshop. Era la versione 5.0, che sta a quella attuale più o meno come una Cinquecento a una Tesla, ma già mi sembrava una rivoluzione – e a ben vedere non sbagliavo. Anche anni dopo, quando il mio lavoro era esposto e venduto in varie gallerie d’arte, a ripetersi erano soprattutto le critiche nei confronti del mezzo digitale: “tanto fa tutto il computer” e “con questi strumenti non è possibile fare arte”. Mi salvava soltanto l’intervento (a dire il vero piuttosto sporadico) con la china o la penna grafica.

I nuovi software basati sul machine learning stanno raccogliendo negli ultimi mesi tanti entusiasmi e altrettante diffidenze: sono programmi capaci di creare immagini di incredibile definizione e dettaglio a partire da un comando testuale inserito dall’utente.

Oggi queste parole suonano per lo più grottesche, visto il fiorire di scuole di grafica digitale e artisti e artiste che operano con strumenti informatici. Ma d’altra parte lo scetticismo è una reazione comune quando un’importante innovazione tecnologica rivoluziona il modo di manipolare i simboli, in questo caso visivi. Se dovessi generalizzare, direi che si passa per tre fasi: la prima è quella della sorpresa, che potremmo chiamare fase del “wow”, quando la novità dello strumento è tale che ogni prodotto che crea sembra straordinario. La seconda è la reazione, la fase dell’ “oh no!”, ovvero la preoccupazione che il nuovo mezzo decreti la fine dell’arte. La terza e ultima è in qualche modo la sintesi delle prime due, la fase “ah ok”, in cui l’ampia diffusione della tecnica ne normalizza l’uso. Per quel che riguarda l’arte digitale, oggi ci troviamo in quest’ultima fase.

La situazione cambia, però, se si guarda ai nuovi software basati sul machine learning che stanno raccogliendo negli ultimi mesi tanti entusiasmi e altrettante diffidenze. Parliamo di programmi capaci di creare immagini di incredibile definizione e dettaglio a partire da un comando testuale inserito dall’utente. Per esempio “foto vintage di un vombato in abito elegante” e… voilà.

Ho avuto modo di esplorarli, sia nella teoria che nella prassi, e a mio parere porteranno una rivoluzione per l’arte visiva pari all’avvento della fotografia o della computer graphics (e prima ancora della pittura a olio, e così via). È ancora presto, perché eccetto qualche versione molto primitiva diventata virale online, come Dall-e mini, i progetti più solidi come Dall-e 2 e Imagen sono ancora chiusi al pubblico o in fase di testing. Con un po’ di fortuna però ho avuto modo di provare la versione di prova di Midjourney e poche settimane dopo è stata accettata anche la mia candidatura come tester per Dall-e 2.

Arte, tecnica e magia
A differenza dei vari sistemi di apprendimento automatico che producono testo (simulando per esempio una conversazione, o riuscendo a scrivere un articolo di giornale), questi che lavorano con le immagini giocano in un campo dove le competenze umane sono minori, perché è più facile aver imparato a scrivere che a disegnare. Il potenziale di questi programmi sta sia nella qualità, che al momento paragonerei a quella di buoni artigiani, che nella velocità di produrre immagini, che è invece enormemente superiore a quella di qualsiasi essere umano.

Prima di affrontare le grandi domande (fa tutto il computer? È possibile farci arte?) farò qualche breve appunto tecnico. Questi software non sono androidi antropomorfi con un’intelligenza e una personalità propria, ma modelli algoritmici basati su enormi quantità di dati creati dagli umani, su cui lavorano su base statistica allo scopo di rispondere con successo alle nostre richieste. Se ad esempio voglio l’immagine di un gattino, Midjourney, che ha “mangiato” milioni di foto di gattini, inventerà un’immagine di un qualche gattino nello stile desiderato. Gli ingredienti che rendono possibile la magia sono essenzialmente il materiale di partenza (foto di gatti), il modo in cui viene catalogato (“questa immagine è una foto di un gatto che soffia”) e la potenza di calcolo della macchina. Come scrive Inke Arns in HumaniTies and Artificial Intelligence:

[Gli artisti spesso] sottolineano come l’IA non sia qualcosa che agisce da sola per magia e come questa – nonostante il nome fuorviante – non “pensi” né tantomeno sia “intelligente”. L’artista tedesco Hito Steyerl parla addirittura di “stupidità artificiale”. L’IA è, molto semplicemente, il riconoscimento di modelli e la potenza di calcolo che permette di trovare proprio questi modelli in enormi insiemi di dati (“Big Data”). A molti appare “magica” perché, per la maggior parte, i set di dati iniziali – “training sets”– non sono noti, né lo sono i modi in cui l’uomo li ha classificati.

Sono proprio queste due caratteristiche, i training set e la loro classificazione, che rendono questi programmi diversi. Midjourney ad esempio è stato allenato con moltissime opere d’arte e permette risultati più originali, a discapito del realismo, che è il punto forte, invece, di Dall-e 2, che è meno fantasioso (direi che è mainstream) ma molto più preciso.

Al momento questi software, per quanto notevoli, hanno comunque dei limiti. Il loro potenziale è vincolato al tipo di addestramento subìto, all’auto-censura (su cui tornerò) e ad alcune funzioni al momento assenti. Midjourney ad esempio non offre la possibilità di modificare parte dell’immagine dopo averla ottenuta, per poter perfezionare qualche particolare, cosa che invece fa Dall-e 2.

Entrambi però non sono ancora in grado di salvare uno stile o parte di un’immagine per riproporla in esperimenti successivi – non hanno insomma una memoria interna. D’altra parte siamo agli inizi ed è facile prevedere che in futuro nasceranno complessi software di generazione di immagine – dei “Photoshop IA” insomma, il sogno di quando ero ragazzo.

Questo ci riporta alle grandi domande. La prima è se questo mezzo che con tanta facilità permette di realizzare ogni tipo di fantasia possa fare delle opere d’arte – e l’inghippo sta nel “con tanta facilità”, che è lo stesso errore avvenuto in passato con la fotografia. Anche all’epoca dei primi dagherrotipi infatti ci si chiedeva se era possibile che uno strumento che con tanta facilità creava una rappresentazione realistica del mondo fosse in grado di generare delle opere d’arte. Baudelaire non aveva dubbi: No. Vale la pena leggere alcuni passi del poeta:

È sorta in questi deplorevoli giorni una nuova industria che ha contribuito non poco a distruggere ciò che di divino forse restava nello spirito francese. […] La poesia e il progresso sono due ambiziosi che si odiano d’un odio istintivo, e, quando s’incontrano sulla stessa strada, bisogna che uno dei due serva l’altro. Se si concede alla fotografia di sostituire l’arte in qualcuna delle sue funzioni, essa presto la soppianterà o la corromperà del tutto, grazie alla alleanza naturale che troverà nell’idiozia della moltitudine. […] Bisogna dunque che essa torni al suo vero compito, quello di essere la serva delle scienze e delle arti, ma la serva umilissima, come la stampa e la stenografìa, che non hanno né creato né sostituito la letteratura. Arricchisca pure rapidamente l’album del viaggiatore e ridia ai suoi occhi la precisione che può far difetto alla sua memoria, adorni pure la biblioteca del naturalista, ingrandisca gli animali microscopici […] Ma se le si concede di usurpare il dominio dell’impalpabile e dell’immaginario, e di tutto quello che vale solo per quel tanto d’anima che l’uomo vi mette, allora poveri noi!

La principale paura di Baudelaire era che la facilità di realizzazione avrebbe moltiplicato a dismisura le opere dozzinali – e a distanza di secoli possiamo dire che aveva perfettamente ragione. Il suo torto era piuttosto credere che questo strumento non potesse dar luogo a opere d’arte e si sbagliava perché, banalmente, non era un bravo fotografo. Ormai sappiamo bene che non basta una macchina fotografica per fare un fotografo. La macchina fotografica è uno strumento complesso, non solo per quel che riguarda il suo utilizzo tecnico, ma anche e soprattutto per quella che è la scelta, il taglio, lo sguardo di chi opera la fotografia. Fare delle buone foto, per non dire delle foto artistiche, è apparentemente facile, ma tra milioni, o meglio miliardi di foto amatoriali solo una sparuta minoranza si è elevata all’empireo dell’arte. La quantità, insomma, non è legata alla qualità e alcune fotografie hanno tanto valore quanto altre opere d’arte, a dispetto della loro riproducibilità.

Alla paura di Baudelaire fece eco la cruciale tesi di Walter Benjamin sulla perdita dell’aura dell’opera d’arte, un’altra intuizione che a posteriori possiamo supporre sia lungimirante che errata. Anche il filosofo tedesco aveva colto l’effetto-terremoto che la fotografia avrebbe portato nel mondo dell’arte, individuando brillantemente nella facilità di riproduzione la sua principale novità e portata politica; in compenso aveva sottovalutato la capacità del mercato – e della società – di trovare scappatoie per gestire l’assenza di unicità. Il filosofo, più fiducioso del poeta sul valore artistico della fotografia (“Non è escluso, del resto, che queste mutate circostanze lascino intatta la consistenza dell’opera d’arte”) pensava però che qualcosa andasse perso, la celeberrima “aura”. Benjamin sostenne che sarebbe scomparsa “la testimonianza storica della cosa. Certo, solo questa; ma in questo modo ciò che prende a vacillare è l’autorità della cosa, è il suo peso tradizionale”.

Eppure, qualunque cosa sia l’aura, alla fotografia d’arte non sembra mancare nulla, né il valore rituale e storico conferito dall’unicità né quel “singolare intreccio di tempo e spazio: apparizione unica di una lontananza, per quanto vicina essa possa essere” cui allude Benjamin. Il tempo ha posizionato questa nuova tecnica accanto a tutte le altre, per quel che riguarda l’arte.

Qui si potrebbe obiettare con la pretesa di un discrimine o una definizione chiara di “arte”, ma che questo compito sia difficile o persino impossibile non significa che l’arte non esista. È anzi palese il contrario, perché attraverso un complesso movimento nel tempo di relazioni tra critica, artisti e pubblico è nato uno sfumato e cangiante canone secondo il quale attribuiamo o eliminiamo l’etichetta di opera d’arte alle fotografie. Non è un limite oggettivo né formalizzabile, ma esiste, in quanto parte delle nostre prassi culturali. Persino la forzatura di questo confine è inclusa nella prassi artistica, come ha insegnato l’orinatoio di Duchamp, che si è imposto come opera d’arte laddove orinatoi analoghi erano e restano comuni sanitari.

Se si osserva il passato remoto della fotografia, noteremo inoltre che anche le paure di chi si occupava di pittura si sono dimostrate infondate, sebbene l’impatto di questa tecnica abbia portato la pittura verso altri lidi, più astratti e concettuali. D’altra parte è difficile che un media ne esili un altro se le sue funzioni non vengono del tutto sostituite e migliorate. La pittura è un prodotto culturale con funzioni e caratteristiche diverse dalla fotografia e per questo le sopravvive (un po’ come i libri cartacei sono ancora vivi nonostante l’avvento del digitale). Il motivo? Sono mezzi con potenzialità, pregi e difetti diversi, al netto delle somiglianze.

È vera arte?
È – o sarà – quindi possibile creare opere d’arte con questi nuovi software? La mia risposta è senza dubbio positiva. In merito, le differenze tecniche che intercorrono con la fotografia e la computer graphics non sono rilevanti, per il semplice fatto che per chi già usa Midjourney o Dall-e è palese che crearci delle opere d’arte non è affatto facile – ed è esattamente questo, come ci insegna l’errore di Baudelaire, che lo rende possibile. Il fatto che nella sfrenata produzione di questi programmi ci siano ancora poche opere d’arte paradossalmente dimostra che è possibile farne.

Si potrebbe obiettare che questi software sono limitati dalle immagini che hanno “mangiato” e che dunque riproporranno degli stili che, per quanto suggestivi, sono basati esclusivamente su quelli già esistenti; mancherebbe insomma l’elemento di novità tipico dell’arte. A differenza degli algoritmi predittivi di cui ha scritto di recente Andrea Signorelli però, qui l’ultima parola non spetta alla macchina, ma agli umani. Imitare un dipinto di Vermeer difficilmente porterà alla nascita di un capolavoro equiparabile a quelli del pittore olandese, ma mescolare il suo stile con quello di altri autori e autrici, dare in pasto alla macchina diverse e inaspettate composizioni di parole chiave, notare nelle creazioni del programma quelle che per qualche colpo di fortuna (o virtuoso errore) non restituiscono un quadro di Vermeer ma qualcosa di decisamente altro, di nuovo, e portarlo avanti in nuove variazioni… insomma, riconoscere e utilizzare gli stilemi e gli errori della macchina nell’obbedire ai comandi porterà le uniche intelligenze in campo, ovvero le nostre, a inventare qualcosa di nuovo.

Riconoscere e utilizzare gli stilemi e gli errori della macchina nell’obbedire ai comandi porterà le uniche intelligenze in campo, ovvero le nostre, a inventare qualcosa di nuovo.

La potenzialità creativa di questi nuovi mezzi risiede – come spesso accade nell’arte – soprattutto nei suoi errori e spetterà solo a noi non considerarli tali, ma trovare in essi nuove e inaspettate strade da percorrere. Certo, lo strumento è senza dubbio limitato a quello che ha “mangiato”, ma è una differenza per lo più quantitativa, perché nel creare opere d’arte siamo anche noi vincolati a tutti i dati visivi di cui abbiamo avuto esperienza e per quanto la nostra banca dati sia incomparabilmente maggiore, l’abilità creativa resta legata al nostro passato percettivo. Se Picasso fosse nato cinquecento anni prima sarebbe comunque diventato un pittore, ma di certo non quello che conosciamo, perché non avrebbe avuto accesso alle rivoluzioni artistiche dei secoli a venire.

Veniamo ora alla seconda grande domanda: questi programmi sono co-autori o strumenti? La mia opinione è bifronte, perché da una parte penso che non siano più co-autori di un pennello e dall’altra che quest’ultimo sia molto più autore di quel che crediamo – ma per spiegare cosa intendo devo fare un piccolo passo indietro.

Questi software, come ho avuto modo di scrivere altrove, non sono umani. Sono privi di qualunque propulsore autonomo di originalità e sono stati creati dall’uomo per scopi squisitamente umani. Se in futuro un’autentica intelligenza artificiale diverrà abbastanza autonoma ed evoluta da voler creare un’opera d’arte, è probabile che noi non la capiremo, anzi, forse neanche ce ne accorgeremo, perché se e quando IA come queste avranno una coscienza, è plausibile immaginare che sarà completamente aliena alla nostra, per via delle enormi differenze strutturali che intercorrono tra noi. Al momento si tratta di strumenti, per quanto evoluti, che in quanto tali sono co-autori tanto quanto lo è il necessario per la pittura ad olio, la macchina fotografica o Photoshop.

Qui però vorrei proporre un ribaltamento dell’idea di autorialità, per suggerire che in un certo senso anche un pennello è un co-autore, perché, come suggeriva Heidegger, non esiste una tecnologia neutra. La pittura ad olio, così come la fotografia e la computer graphics, inglobano in sé una fitta rete di conoscenze teoriche e tecnologiche, di scelte stilistiche, di limiti e potenzialità di azione sulla materia e sull’immagine che derivano dal lavoro delle molte persone che negli anni, nei secoli o nei millenni ne hanno delineato il campo di azione. Più che nani sulle spalle di giganti, siamo nani in mezzo a molti altri nani e ciò che produciamo è reso possibile e vincolato dalle scoperte e le decisioni altrui – non solo stilistiche o poetiche, ma anche tecniche e metodologiche. Chi ha avuto modo di disegnare o dipingere con qualunque mezzo, sa bene come materia e strumento siano contemporaneamente vincolo e occasione creativa; tra l’artista e il suo mezzo si crea una simbiosi generativa dai confini sfumati, perché lo strumento non è un oggetto inerte, ma vive dell’eredità di chi lo ha usato, perfezionato e modificato prima di noi. Lo strumento è una bacchetta magica che possiede una volontà propria con cui venire a patti, perché interiorizza e lascia in eredità antiche conoscenze che si palesano solo con l’uso – per questo alla seconda grande domanda risponderei che sì, questi software sono co-autori, ma né più né meno di un pennello.

Caos e censura
Questi programmi possono creare illustrazioni, disegni, immagini stilizzate e dipinti digitali, ma anche fotografie, inventate ma estremamente realistiche, come questo “uomo triste con un piccione”.

Come è facile immaginare, questo porta a qualche problema. Già adesso i siti di “stock images” che forniscono foto in licenza da utilizzare per illustrazioni di giornali, riviste, pubblicità, hanno buoni motivi per preoccuparsi. In futuro però, se chiunque potrà falsificare in modo pressoché perfetto e in immense quantità qualunque tipo di immagine, il valore di testimonianza di una foto, che già era in crisi con lo sviluppo della grafica e del ritocco digitale, potrebbe davvero arrivare a zero. Di sicuro sarà sempre più difficile incrociare i dati per scoprire la verità di eventi accaduti a distanza, cosa che porterà alla sfiducia nel valore documentale delle immagini, e, di converso, magari a un ritorno alla fonte testimoniale, la cui reputazione varrà più di prove facilmente falsificabili.

Per evitare, per ora, rischi e polemiche commercialmente dannose, questi software operano una severa censura, vietando termini e immagini che possano offendere… bé, più o meno chiunque. A quanto ho potuto sperimentare, è vietata la pornografia, la violenza, il razzismo, la blasfemia, l’omofobia come anche la raffigurazione di immagini dichiaratamente omosessuali. Midjourney è un po’ più permissivo, mentre Dall-e 2 censura anche parole che a stento si possono classificare come rischiose. Sta di fatto che qualunque cosa possa infastidire un conservatore e un liberale, un omosessuale e un omofobo, e così via, per ora è vietata. Le aziende non vogliono grane, questo è evidente, ma è facile immaginare che in futuro questi limiti saranno scavalcati da concorrenti meno timidi.

A monte di questa censura non è difficile notare una confusione tra l’idea di immagine di fantasia e reale – che male c’è a inventare scene di violenza, sesso, crudeltà e quant’altro? L’arte ci campa da secoli. Come diceva S.Agostino, un uomo non è responsabile dei propri sogni e negare persino la possibilità di pensare il male non lo tiene certo alla larga.

Non appena i software riusciranno ad affinare i loro algoritmi, saranno una rivoluzione nel campo dell’arte. E non solo. Il terremoto si sentirà ovunque.

Il discorso cambia se si parla della diffusione di immagini rischiose, soprattutto se spacciate per vere. Supponiamo per esempio che in questo momento io pensi a una scena a contenuto sessuale e che decida di prendere una matita e disegnare quanto immagino, per conservarlo nel mio cassetto delle cose osé. Mi sembra lecito, infatti lo è. Cosa cambia se invece di usare la matita usassi una IA per dar vita alla mia fantasia? Certo, se cominciassi a diffondere le immagini tra chi non è consenziente o addirittura a spacciarle per vere, commetterei dei gravi illeciti. D’altra parte, però, negare domicilio a sesso, violenza e orrore nella nostra fantasia è, con buona pace dei puritani, semplicemente ridicolo – e dannoso, per chiunque abbia familiarità con l’idea di catarsi e con le funzioni svolte dall’immaginazione nell’evoluzione della mente umana.

Questo non significa che il problema legato alla diffusione di immagini false o sgradite sia da sottovalutare, tutt’altro, si tratta di un tema importante verso il quale si devono pensare delle buone contromisure, ma senza lasciarci distrarre da moralismi controproducenti.

Come ha scritto Alessandro Y. Longo, i problemi più gravi di queste intelligenze artificiali sono piuttosto da individuare nel loro impatto ambientale e nell’aumento delle disuguaglianze dovuto al carattere chiuso della maggior parte di questi software. Scrive Longo:

L’industria dell’AI richiede sempre più materie prime per mantenere la sua corsa verso il progresso, come ha raccontato magistralmente la studiosa Kate Crawford. La ricercatrice Timnit Gebru ha calcolato che per allenare un grande modello linguistico vengono emesse circa 300 tonnellate di CO2: una cifra considerevole e preoccupante. Nella ricezione pubblica di questi modelli, è strano come questo fatto sia sfuggito all’attenzione di molt* commentator*, se consideriamo invece la culture war scoppiata intorno agli NFT proprio in luce del loro impatto ambientale. […] Infine, va sottolineato come non siano molti i centri di ricerca in grado di disporre di una tale quantità di GPU per allenare i modelli: questo porta ad un aumento delle disuguaglianze e impedisce agli attori più piccoli di fare ricerca d’avanguardia.

Ancora una volta, insomma, rischiamo di concentrarci sui problemi minori per ignorare quelli sostanziali – meno visibili perché connaturati alle storture dell’attuale assetto sociale.

Non so se questo articolo finirà nella cesta di quelli profetici o tra quelli che hanno preso una cantonata. Se devo sbilanciarmi però, la mia ipotesi è che non appena i software riusciranno ad affinare i loro algoritmi, a gestire meglio le situazioni dinamiche, a ricordare stili, personaggi ed elementi e a essere addestrati da chi li usa senza avere competenze da programmatore, saranno una rivoluzione nel campo dell’arte. E non solo. Il terremoto si sentirà ovunque. Ma questa scossa deve trovarci entusiasti, curiosi e ben preparati rispetto agli inevitabili pericoli.

Tutte le immagini presenti nell’articolo sono state ottenute da Francesco D’Isa con Midjourney e Dall-e 2.