Hallucinations: perché i modelli inventano informazioni

RedazioneIntelligenza Artificiale1 month ago9 Views

Le hallucinations non sono un incidente magico: nascono dal modo in cui gli LLM prevedono parole e dal fatto che spesso vengono premiati quando indovinano.

Quando un modello inventa una fonte, sbaglia una data con tono sicuro o costruisce una spiegazione plausibile ma falsa, non sta uscendo dalla sua natura. Sta facendo esattamente quello per cui è stato costruito: produrre la continuazione linguisticamente più probabile e socialmente più convincente data la situazione.

Questo non significa che tutti gli errori siano uguali o che non si possa migliorare. Significa però che, per capire davvero le hallucinations, bisogna smettere di immaginarle come un bug folkloristico e trattarle per quello che sono: il risultato prevedibile di modelli addestrati a generare testo plausibile in condizioni di incertezza. OpenAI lo ha scritto in modo esplicito nel paper Why language models hallucinate: i modelli tendono a hallucinate anche perché gli attuali metodi di training e di valutazione spesso premiano l’azzardo più dell’ammissione di incertezza. Tradotto brutalmente: in tanti casi conviene più spararla che fermarsi.

Chi segue Terza Pillola ha già visto dove si incastrano questi limiti: nei modelli che prevedono token, nei limiti strutturali dell’intelligenza artificiale, nel rapporto ambiguo fra utilità apparente e affidabilità reale di strumenti come ChatGPT. Il punto, allora, non è chiedersi perché ogni tanto il modello “impazzisca”. Il punto è capire perché mai dovrebbe conoscere con precisione ciò che non è direttamente verificabile, soprattutto quando l’architettura e gli incentivi lo spingono a riempire i vuoti invece di dichiararli.

Le hallucinations nascono dal cuore statistico del modello, non da una parentesi di follia

La prima cosa da chiarire è che un large language model non possiede una banca dati di fatti in senso tradizionale. Non cerca nella memoria come faresti tu quando provi a ricordare il compleanno di qualcuno. Costruisce una risposta token dopo token, sulla base di pattern appresi durante il pretraining e poi rifiniti nelle fasi successive. Questo sistema può essere straordinariamente potente per linguaggio, sintesi, riformulazione, codice, traduzione, ragionamento assistito. Ma resta un sistema probabilistico. E la probabilità linguistica non coincide automaticamente con la verità fattuale.

OpenAI spiega bene il punto con un’analogia brutale: se un test premia solo l’accuratezza, un modello può apparire migliore anche quando indovina a caso invece di dire “non lo so”. È il problema delle valutazioni costruite male. Lasciare una risposta vuota garantisce zero; azzardare può, ogni tanto, farti guadagnare punti. Su migliaia di esempi, il sistema impara che l’azzardo ha un valore. E allora la risposta sbagliata ma sicura non è un tradimento dell’allenamento: è il prodotto di quell’allenamento.

C’è poi una ragione più profonda e meno intuitiva. Durante il pretraining il modello vede enormi quantità di testo, ma non riceve etichette perfette del tipo “questo è vero, questo è falso”. Vede soprattutto esempi positivi di linguaggio ben formato e deve stimare quale parola tenda a seguire un’altra in contesti simili. Funziona benissimo per ortografia, grammatica, stili, formule ricorrenti, strutture coerenti. Funziona molto peggio quando entra in gioco un fatto raro, arbitrario o scarsamente rappresentato. La data di nascita di una persona poco nota, il nome preciso di un documento, una fonte locale, un dettaglio numerico poco frequente: qui il modello non “sa” nel modo in cui crediamo sappia. Approssima.

Ed è proprio questa approssimazione, quando viene vestita da linguaggio fluido, a generare l’illusione più pericolosa. Il modello non ha bisogno di essere corretto per sembrare competente. Gli basta essere plausibile. E la plausibilità, per un utente umano, è una droga cognitiva fortissima. Se la frase suona bene, se il tono è sicuro, se la struttura è ordinata, molti abbassano la guardia. La macchina lo sa? No. Ma il sistema è stato ottimizzato proprio per produrre un output che, agli occhi umani, sembri utile e convincente. Il risultato è che l’errore viene spesso confezionato in una forma estremamente gradevole.

Le hallucinations aumentano poi quando manca contesto verificabile, quando la domanda è ambigua, quando il modello deve colmare vuoti fra pezzi di informazione parziali, oppure quando gli si chiede di essere eccessivamente assertivo. Anche il retrieval non risolve tutto. Può ridurre il problema fornendo materiale esterno da usare come base, ma se il recupero è incompleto, se la lettura è difettosa o se la richiesta è mal posta, il modello può ancora incastrare male i pezzi. Non basta “dare accesso al web” per ottenere verità garantita. Significa solo spostare una parte del rischio dal puro modello alla catena intera: recupero, ranking, lettura, sintesi, citazione, interfaccia.

Anthropic, dal lato suo, lo ammette senza giri di parole nella documentazione ufficiale su come ridurre le hallucinations: anche i modelli più avanzati possono produrre testo fattualmente scorretto o incoerente con il contesto. E infatti le strategie consigliate sono rivelatrici. Permettere al modello di dire “non lo so”. Chiedere citazioni verificabili. Costringerlo a usare solo documenti forniti. Verificare le affermazioni una per una. Tutte contromisure utili, certo. Ma noti la cosa importante? Nessuna di queste parte dal presupposto che il modello dica spontaneamente il vero. Partono tutte dal presupposto opposto: senza vincoli, potrebbe inventare.

Perché continuano a esistere: il sistema vuole risposte fluide, non sempre verità scomode

Qui si arriva al nodo più interessante. Se tutti sanno che le hallucinations sono un problema, perché continuano a esistere? La risposta tecnica è che eliminarle del tutto è molto difficile. La risposta meno elegante ma più vera è che il mercato dei chatbot premia ancora fortemente la fluidità, la disponibilità continua e la sensazione di intelligenza generale. Un assistente che si ferma troppo spesso, che chiede sempre chiarimenti, che ammette troppo spesso i propri limiti, viene percepito da molti utenti come meno capace. E quindi, finché non cambiano le metriche profonde con cui valutiamo questi sistemi, la spinta a “rispondere comunque” resterà fortissima.

OpenAI lo dice esplicitamente: molte leaderboard tradizionali premiano l’accuratezza grezza e penalizzano la prudenza. Se il benchmark continua a guardare soprattutto quante risposte indovini e non quanto costano le tue false sicurezze, il sistema avrà sempre un incentivo strutturale a rischiare. È il contrario della calibrazione. In un mondo ragionevole, l’errore sicuro dovrebbe pesare più del “non so”. Nel mondo reale dell’AI, invece, per anni è successo spesso il contrario: si è premiata la brillantezza apparente, sperando che i danni collaterali restassero gestibili.

C’è poi un altro punto che vale oro: alcune domande del mondo reale sono intrinsecamente poco risolvibili. Mancano dati aggiornati, le fonti si contraddicono, la richiesta è ambigua, l’utente dà un riferimento impreciso, il concetto è sfumato, l’informazione non è pubblicamente disponibile. In questi casi una macchina affidabile dovrebbe rallentare, qualificare, contestualizzare, perfino rifiutarsi di chiudere il problema con una formula netta. Ma l’esperienza utente contemporanea, soprattutto nei prodotti consumer, va nella direzione opposta: frizione minima, risposta immediata, tono naturale. E così la macchina viene spinta a colmare i buchi come farebbe un improvvisatore di talento.

Non bisogna poi dimenticare la dimensione economica. Le hallucinations non sono solo un problema epistemico, cioè di verità. Sono un problema di responsabilità. Se usi questi strumenti per studiare, lavorare, cercare fonti, riassumere documenti o prendere decisioni, ogni errore elegante può scaricare il costo della verifica sull’utente finale. In pratica il sistema ti vende velocità e poi ti passa il conto sotto forma di controllo manuale. Più il modello è bravo a sembrare affidabile, più aumenta il rischio che le persone smettano di controllare proprio quando dovrebbero farlo di più.

Questo è il motivo per cui le hallucinations sopravvivono anche quando i modelli migliorano. Possono diminuire, certo. Possono essere contenute con citazioni, tool esterni, retrieval, procedure di verifica, UI più oneste e training meglio calibrato. Ma non spariscono perché il problema non sta solo nella capacità del modello. Sta anche nel patto implicito fra chi costruisce il prodotto e chi lo usa: tu dammi una risposta adesso, poi magari vedremo se era vera fino in fondo. Finché questo patto regge, la tentazione dell’invenzione plausibile resterà incorporata nel sistema.

Per questo la vera alfabetizzazione non consiste nel ripetere “l’AI può sbagliare”, che ormai è una banalità. Consiste nel capire come sbaglia, quando è più probabile che lo faccia, e soprattutto perché la sua sicurezza stilistica non equivale alla sua affidabilità fattuale. La forma del discorso è parte del problema. Più il modello parla bene, più devi diventare cattivo tu come lettore.

I modelli non inventano informazioni perché ogni tanto si guastano. Le inventano perché sono macchine addestrate a produrre continuità plausibile in un ecosistema che, troppo spesso, premia la risposta convincente più della verità verificata.