La ricerca OpenAI dimostra che le allucinazioni LLM sono matematicamente inevitabili e propone soluzioni costose

In un documento di ricerca innovativo pubblicato da OpenAI, i ricercatori hanno fornito una rigorosa spiegazione matematica del motivo per cui i modelli linguistici di grandi dimensioni (LLM) come ChatGPT spesso presentano allucinazioni, generando in modo sicuro informazioni false. Lo studio, pubblicato il 16 settembre 2025 da Wei Xing in The Conversation, sostiene che questo problema non è semplicemente un difetto di formazione ma una conseguenza intrinseca del modo in cui funzionano questi modelli. Sebbene il documento offra potenziali soluzioni, sottolinea che la loro implementazione potrebbe sconvolgere l’esperienza degli utenti e far salire alle stelle i costi computazionali, rendendo improbabile un’adozione diffusa per le applicazioni consumer.

Il problema principale deriva dalla natura autoregressiva degli LLM, che generano risposte prevedendo una parola alla volta in base alle probabilità derivate dai dati di addestramento. Questo processo sequenziale porta intrinsecamente all’accumulo di errori. Secondo i ricercatori, il tasso di errore totale per la generazione di un’intera frase è almeno il doppio del tasso di errore per una semplice domanda sì/no. Ad esempio, se un modello ha un tasso di errore del 10% sulle query binarie, gli errori a livello di frase potrebbero raddoppiare fino al 20% o più poiché le imprecisioni si accumulano su più token.

Le allucinazioni sono fondamentalmente limitate dalla capacità del modello di classificare le risposte valide da quelle non valide, un compito che si rivela impegnativo in diversi domini di conoscenza. Anche con dati di addestramento impeccabili, il meccanismo di previsione probabilistica garantisce un certo livello di inevitabili falsità. Il documento sottolinea che la rarità delle informazioni nei set di dati di addestramento aggrava questo problema. I fatti che appaiono raramente sono più inclini a ricordare male o ad essere falsificati.

Un esempio lampante riguarda i compleanni di personaggi importanti. Dall’analisi è emerso che se il 20% di tali compleanni compare solo una volta nei dati di addestramento, si prevede che i LLM di base sbaglieranno su almeno il 20% delle query correlate. Per illustrarlo, i ricercatori hanno testato modelli all’avanguardia in occasione del compleanno di Adam Kalai, uno dei coautori dell’articolo. Il modello DeepSeek-V3, in tentativi separati, ha restituito tre date completamente errate: “03-07”, “15-06” e “01-01”. La data effettiva cade in autunno, evidenziando come i modelli possano affermare con sicurezza dettagli lontani dalla realtà.

Ad aggravare il problema è il quadro di valutazione utilizzato nei parametri di riferimento dell’IA. Lo studio ha esaminato dieci principali benchmark, inclusi quelli di Google, OpenAI e le principali classifiche di intelligenza artificiale. Nove di essi utilizzano sistemi di valutazione binari che assegnano zero punti per le espressioni di incertezza, come “Non lo so”. Questa impostazione equipara le oneste ammissioni di ignoranza agli errori palesi, creando un incentivo perverso per i modelli a indovinare sempre piuttosto che astenersi.

Matematicamente, i ricercatori dimostrano che con la valutazione binaria, indovinare produce un punteggio atteso più alto rispetto a trattenere una risposta, indipendentemente dalla reale probabilità di correttezza. Se un modello ha anche una minima possibilità – diciamo, l’1% – di avere ragione, la potenziale ricompensa supera la penalità per l’astensione. Questa “epidemia” di incertezza penalizzante, come la descrivono gli autori, perpetua risultati troppo sicuri e soffoca il progresso verso un’IA più affidabile.

Il rimedio proposto da OpenAI prevede l’integrazione della stima della fiducia nel processo decisionale del modello. Prima di rispondere, l’IA valuterebbe il suo livello di certezza e procederebbe solo se supera una soglia predefinita. I parametri di riferimento verrebbero quindi adeguati per ottenere un punteggio basato su questa confidenza, ad esempio penalizzando più pesantemente gli errori (ad esempio, -3 punti) premiando le risposte corrette (+1 punto) e consentendo l’astensione per i casi con scarsa confidenza.

Il quadro matematico dimostra che soglie appropriate incoraggerebbero i modelli a esprimere l’incertezza in modo naturale, riducendo le allucinazioni. Tuttavia, l’implementazione pratica rivela notevoli inconvenienti. Il documento stima che l’applicazione di una soglia di confidenza del 75% potrebbe portare ChatGPT a rispondere “Non lo so” a circa il 30% delle domande, sulla base di lacune fattuali nei dati di addestramento. Gli utenti, abituati a risposte istantanee e autorevoli, potrebbero trovarlo frustrante e passare ad alternative meno caute.

Wei Xing traccia un parallelo dal suo coinvolgimento in un progetto di monitoraggio della qualità dell’aria a Salt Lake City, Utah. Quando il sistema segnala incertezze, dovute a condizioni meteorologiche avverse o alla calibrazione, il coinvolgimento dell’utente diminuisce rispetto alla visualizzazione di letture attendibili, anche se imprecise. Questa analogia sottolinea una più ampia preferenza umana per la certezza rispetto all’accuratezza, che potrebbe erodere l’adozione dell’intelligenza artificiale consapevole dell’incertezza nei contesti dei consumatori.

Al di là dell’esperienza dell’utente, le esigenze computazionali rappresentano una barriera formidabile. La quantificazione dell’incertezza richiede la valutazione di percorsi di risposta multipli e la stima degli intervalli di confidenza, un processo molto più dispendioso in termini di risorse rispetto alla previsione token standard. Per i servizi che gestiscono milioni di query giornaliere, ciò potrebbe moltiplicare notevolmente i costi operativi. Incertezza stabilita quaI metodi di notifica, sviluppati nel corso di decenni in campi come la statistica e l’apprendimento automatico, sono efficaci ma computazionalmente costosi.

Tecniche avanzate come l’apprendimento attivo, in cui l’intelligenza artificiale pone domande chiarificatrici agli utenti, potrebbero migliorare ulteriormente la precisione ma aumentare ulteriormente i requisiti. Questi approcci sono realizzabili in ambiti ad alto rischio in cui gli errori comportano gravi conseguenze. Ad esempio, nella logistica della catena di fornitura, nel commercio finanziario o nella diagnostica medica, il costo di un’allucinazione (ad esempio, milioni di perdite di entrate o danni ai pazienti) giustifica l’investimento in sistemi cauti e ad alto carico di calcolo.

Nella progettazione dei chip o nella gestione delle infrastrutture economiche, l’intelligenza artificiale consapevole dell’incertezza diventa non solo fattibile ma essenziale. Il documento rileva che quando gli agenti di intelligenza artificiale supervisionano le operazioni critiche, l’economia cambia: il costo di controlli approfonditi sulla fiducia impallidisce rispetto ai rischi di errori eccessivi. Tuttavia, l’intelligenza artificiale dei consumatori, che domina le priorità di sviluppo, opera secondo regole diverse. Gli utenti richiedono risposte rapide e sicure a qualsiasi domanda, dalle curiosità ai consigli.

I benchmark continuano a favorire le congetture e le efficienze hardware, come la riduzione dei costi energetici per token o il miglioramento delle architetture dei chip, potrebbero alla fine abbassare le barriere. Tuttavia, rispetto ai modelli di ipotesi semplificati di oggi, la gestione dell’incertezza richiederà sempre una maggiore potenza di elaborazione. Il documento espone inavvertitamente un disallineamento negli incentivi aziendali: velocità e fiducia guidano i profitti nelle app consumer, mentre l’accuratezza passa in secondo piano.

Le tecniche post-allenamento, come l’apprendimento per rinforzo dal feedback umano (RLHF), hanno mitigato alcune allucinazioni ma non riescono ad affrontare le cause profonde. La ricerca dimostra che anche i modelli ottimizzati mantengono queste inevitabilità matematiche. Fino a quando gli standard di valutazione non si evolveranno per premiare la sfumatura e l’economia computazionale non darà priorità all’affidabilità rispetto alla velocità, le allucinazioni rimarranno un segno distintivo dei LLM di consumo.

Questa rivelazione mette in discussione la traiettoria del settore dell’intelligenza artificiale. Man mano che i modelli diventano più grandi e più capaci, la pressione per bilanciare innovazione e affidabilità si intensifica. Il lavoro di OpenAI richiede un cambio di paradigma, esortando gli sviluppatori, i creatori di benchmark e gli utenti a valutare le risposte calibrate. Nei settori ad alto valore, l’adozione sembra imminente; per gli strumenti di uso quotidiano rimane una prospettiva lontana.

Gli autori dell’articolo, compresi i ricercatori di OpenAI, concludono che senza un riallineamento degli incentivi, il perseguimento di un’intelligenza artificiale impeccabile rimarrà sfuggente. Come nota Wei Xing, professore assistente presso la Scuola di scienze matematiche e fisiche dell’Università di Sheffield, nell’articolo ripubblicato da The Conversation sotto una licenza Creative Commons, “gli incentivi commerciali che guidano lo sviluppo dell’intelligenza artificiale dei consumatori rimangono fondamentalmente disallineati con la riduzione delle allucinazioni”.

Questo studio non solo diagnostica un difetto persistente, ma traccia anche un percorso da seguire, che richiede compromessi tra usabilità, costo e veridicità. Man mano che l’intelligenza artificiale si integra sempre più nella vita quotidiana, affrontare queste tensioni sarà cruciale per il progresso sostenibile.

La ricerca OpenAI dimostra che le allucinazioni LLM sono matematicamente inevitabili e propone soluzioni costose

Related Stories

Apple porta controlli vocali Siri più personali nella beta 3

Lo studio antropico rileva che i modelli di Claude formano uno spazio di lavoro interno che assomiglia alla coscienza

Apple attiva Siri AI su Apple Watch in watchOS 27 beta 3

Midjourney spinge Disney e altri a rivelare l’uso interno dell’intelligenza artificiale in una causa legale