C’è un equivoco simmetrico, in giro, su come funziona l’intelligenza artificiale generativa. Da una parte chi la usa come se dentro ci fossero le fatine o il genio della lampada: chiedi e ottieni, senza farsi troppe domande sul “come”. Dall’altra chi la liquida come se dentro ci fossero solo pappagalli: ripete, non capisce, non vale niente di quello che dice, è “solo” statistica (come se non fosse incredibile poter fare tutto quello che fa usando solo la statistica). Sono due forme di miopia speculari, innocue per chi le pratica e dannose per tutti gli altri. Perché entrambe rinunciano alla cosa che conta: capire il processo intero, non solo quello del software.
Per capirlo non basta capire la parte informatica. Anzi, è proprio questo l’errore più diffuso fra chi cerca di “formarsi sull’AI”: studiare il modello, gli strati, i parametri, le architetture, i vettori. È come voler imparare a nuotare studiando la formula chimica dell’acqua. Si può fare, ma non c’entra molto con il nuotare bene. Quello che serve è un’altra cosa: una formazione di processo. Capire come nasce un output, dove può rompersi e con quali gesti minimi tenerlo sotto controllo prima di farlo nostro.
Chi delega come se ci fossero le fatine fa una cosa molto antica: tratta lo strumento come un oracolo. L’oracolo dà risposte e le risposte si accettano. Non si discutono, perché il meccanismo è oscuro per definizione. È la stessa postura di chi accetta un risultato perché “lo dice il computer”, o “l’ha calcolato il sistema”. Solo che adesso il sistema sa parlare benissimo e qui sta il problema.
La fluidità linguistica di un testo è da sempre ingannatoria, un po’ come la bellezza in genere. Ursula Le Guin, in Words Are My Matter, confessa di indulgere spesso in quello che definisce lo snow job stilistico: la tendenza a esprimere idee incomplete con tale aggraziata sicurezza da renderle perfettamente convincenti, anche quando non sono del tutto in bolla. Uno stile fluente, scrive, non dipende per forza dai pensieri che esprime: si può usare per pattinare sopra i vuoti di conoscenza e nascondere le giunture sgangherate fra le idee. Lo dice confessando una colpa, parlando di sé. Nei modelli generativi non può essere una colpa, perché non sentono nulla. È una condizione strutturale: lo stile fluido è tutto quello che hanno.
Un testo ben scritto attiva in noi gli automatismi che abbiamo costruito leggendo e studiando testi scritti da esseri umani: ci aspettiamo coerenza, intenzione, responsabilità. Quegli automatismi non si spengono solo perché sappiamo che dietro c’è un modello statistico. Continuiamo a leggere come se chi scrive sapesse. È un riflesso, non un’opinione. È solo sintassi, potremmo dire richiamando quel “è solo statistica”. Sono solo parole, canta Noemi.
La neuroscienziata Martina Ardizzi, in Our Brain After Chat, descrive bene il meccanismo. Quando dialoghiamo con un sistema generativo il cervello mette in moto due registri in parallelo. Uno linguistico (capire, integrare, prevedere) e uno sociale: valutiamo automaticamente l’interlocutore, gli attribuiamo competenza, intenzione, affidabilità e regoliamo la nostra fiducia di conseguenza. È questo doppio binario che rende l’esperienza così potente, e così ambigua. Riceviamo parole che suonano come se le avesse prodotte qualcuno, anche quando sappiamo che non c’è nessuno. Sapere è una cosa, sentire è un’altra, e il sentire vince quasi sempre.
A chi crede nelle fatine queste sviste sfuggono, e a furia di sviste si pubblicano cose imbarazzanti, si fanno consulenze sbagliate, si prendono decisioni su basi inesistenti. A chi crede nei pappagalli queste sviste sembrano la fine del mondo as we know it, e a furia di gridare al lupo si dimentica di paragonare le sviste statistiche alle sviste umane, unico criterio sensato per prendere la decisione giusta.
Sull’altro versante c’è chi si è fermato alla famosa metafora dei stochastic parrots – i pappagalli stocastici di Timnit Gebru ed Emily Bender – e l’ha trasformata in una scusa per non guardare oltre. È solo statistica, ripete senza capire, non è intelligente (e chi se ne frega se i pappagalli, invece, così scemi non sono, come ricordo nel mio pezzo How Do We Talk About AI). Tutto vero e tutto irrilevante per chi deve usarla nel lavoro quotidiano.
Un pappagallo che ha letto qualche miliardo di pagine e sa rimaneggiarle in modo plausibile ci aiuta a fare cose (atti) che hanno effetti reali nel mondo: scrive contratti, riassume documenti, redige bozze, traduce, suggerisce strategie. Dire che “non capisce” è descrittivamente corretto e operativamente inutile. È come dire che un coltello “non sa cosa sta tagliando”. Bravo. Ora pelami le patate.
Il pappagallismo è la posa di chi vuole stare sopra alla questione senza sporcarsi le mani. Risparmia il lavoro di capire e regala una superiorità di facciata. Ma chi rifiuta in blocco il testo sintetico non smette di credere a quello che legge, quando è scritto bene. Continua a essere influenzato senza accorgersene, che è il modo peggiore.
Tra le fatine e i pappagalli c’è un filo più sporco, complicato e interessante: il processo che lega umani e software e che deve andare oltre la semplice attenzione, come suggerito dalla Human-Centered AI (HCAI) di Ben Shneiderman. Un flusso che parte da un’istruzione (il prompt), attraversa una macchina addestrata su una notevolissima quantità di testi e produce una risposta che è il completamento più probabile di quella domanda dato quel contesto. Punto. Non c’è altro. Ma dentro questo flusso c’è tantissimo.
Il modello linguistico è una cuoca che ha letto tutti i ricettari del mondo e ha cucinato un sacco di volte, ma non ha mai mangiato. Sa combinare ingredienti in modi che funzionano sulla carta, perché ha visto un’enorme quantità di combinazioni che funzionano. Non assaggia, non ha memoria del sapore, non sa se quello che produce è buono, sa solo se è coerente con quello che ha visto fare. Quando le chiedi un piatto che ha incontrato mille volte ti spiega alla perfezione come farlo. Quando le chiedi qualcosa di nuovo, può inventare un piatto perfetto o uno scempio e dal suo punto di vista sono indistinguibili.
È la traduzione simultanea fatta da chi non conosce davvero nessuna delle due lingue, ma ha imparato by heart quali parole stanno vicine ad altre. Funziona benissimo per il 99% delle frasi, e produce assurdità maestose nel 1% che esce dai pattern (numeri a caso, ma verosimili). Assurdità spesso utili, tra l’altro, perché non usiamo il testo solo per descrivere il reale, a meno di non voler buttare via la letteratura.
Il modello linguistico è un maestro di yoga che ha studiato ogni tradizione, conosce ogni asana, sa descrivere l’allineamento di ogni posa con precisione anatomica, ti spiega benissimo cosa dovresti sentire nel triangolo o nella verticale sulla testa. Non ha mai abitato un corpo. Non sa la differenza fra una posa che sembra giusta da fuori e una che è giusta da dentro, quella differenza minuscola e decisiva che ogni praticante riconosce, e che non si vede in nessuna fotografia. Sa la forma, non sente il respiro che la tiene in piedi.
Niente di dispregiativo, è descrittivo. E spiega perché la postura giusta non è né la fede né lo scherno, ma il controllo metodico.
Quello che serve sapere, per usare bene questi strumenti, per me sta in cinque cose minime sul come nascono le risposte, che non è un come tecnico. Quando le sai, però, potrebbe cambiare il modo in cui leggi quello che la macchina scrive.
Il modello risponde a quello che hai chiesto, non a quello che vorresti sapere. Se chiedi “scrivimi un articolo su X”, lui ti scrive un articolo su X anche se X non esiste, anche se la domanda nasconde un assunto sbagliato, anche se quello che ti serviva era un’altra cosa. Non c’è un livello di realtà che lo richiama all’ordine. La qualità della risposta dipende dalla qualità della domanda e la domanda la fai tu.
Il modello produce risposte plausibili, non vere. Sono due cose diverse. Plausibile vuol dire che assomiglia a una risposta giusta. Vero vuol dire che corrisponde alla realtà. Su tante cose plausibile e vero coincidono, perché la realtà è statisticamente comune. Su altre divergono in silenzio. Una citazione plausibile e una citazione vera hanno esattamente lo stesso aspetto e il modello non distingue fra le due.
Il modello non sa quello che non sa. Non ha un rilevatore interno di ignoranza. Non è un database di informazioni verificate. Quando gli chiedi qualcosa che non era nei suoi dati o che è successo dopo o che è troppo specifico per essere rappresentato in modo affidabile, non si ferma. Riempie. Ed è lì, in quel riempire, che nascono le invenzioni più convincenti.
Ogni risposta è una scelta fra molte possibili. Non c’è una risposta corretta nascosta da estrarre. C’è un ventaglio di risposte coerenti con quello che hai chiesto, e il modello te ne dà una. Cambiando una virgola nel prompt, te ne dà un’altra. Quello che leggiamo è una possibilità, non la risposta.
E quindi, per amor del cinque: l’output è materia prima, mai prodotto finito. È un primo getto, una bozza, un’ipotesi di lavoro. Considerarlo il punto d’arrivo è come prendere il primo schizzo di un progettista e mandarlo in produzione. La prima versione di qualunque cosa è merda, diceva Hemingway.
Quattro gesti, alla portata di chiunque, che tu sia Mira Murati o una come me.
La triangolazione. Quando il modello dà un fatto, un dato, una citazione, una fonte, vai a cercarla altrove. Non per sfiducia, per metodo. Se la trovi confermata in due posti indipendenti, ok. Se non la trovi, hai trovato qualcosa di più importante: il punto in cui il modello stava riempiendo. Puoi anche chiederla al modello, soprattutto se hai una versione a pagamento, ma a volte è più faticoso (mi è capitato ieri con una citazione di Waldrop che non abbiamo trovato letterale e ho preferito non inserirla).
La domanda al contrario. Chiedere al modello la stessa cosa da un’angolazione opposta. “Dimmi i pro di X.” “Dimmi i contro di X.” “Dimmi perché X è una pessima idea.” Se le risposte sono coerenti fra loro, il terreno è solido. Se sono ugualmente convinte e contraddittorie, il modello sta pattinando.
L’aggiunta di contesto specifico. Più informazione concreta gli dai (di te, del tuo lavoro, del destinatario, del contesto reale), meno spazio lasci all’invenzione. Le risposte generiche sono il terreno fertile delle allucinazioni; le risposte agganciate a un contesto preciso sono molto più affidabili. Non perché il modello “capisca”, ma perché il pattern statistico si restringe.
Il test della propria competenza. Sui temi di cui sai qualcosa, leggi sempre l’output con la testa di un revisore esperto. Non delegare la valutazione, falla. Sui temi di cui non sai niente, sospendi il giudizio: usa l’output come mappa preliminare per orientarti, mai come risposta finale. Il modello non aumenta la nostra competenza, la amplifica. Se c’è, ci rende più veloci. Se non c’è, amplifica la nostra ignoranza. Almeno per ora.
Quello che si delega all’AI non è il pensiero, è una parte del lavoro che sta intorno al pensiero. La prima stesura, il setaccio iniziale, la sintesi grezza, la traduzione veloce, l’esplorazione di alternative. Cose preziose, ma sempre intermedie. Il pensiero – quello che sceglie, decide, valuta, taglia, riscrive, firma – resta dove era prima: dentro di noi.
La differenza fra chi userà bene questi strumenti e chi li userà male, nei prossimi anni, non sarà tecnica. Sarà di processo. E il processo si impara praticandolo, non studiando l’informatica che lo regge sotto. Tra le fatine e i pappagalli c’è una cuoca che non ha mai mangiato, un traduttore che non parla nessuna lingua, un’insegnante che non ha mai abitato un corpo. Sapere com’è fatta quella cosa lì, in modo agile e quotidiano, è già metà del mestiere nuovo. L’altra metà è ricordarsi, ogni volta, che assaggiare tocca a noi.