Uno studio sul modello ChatGPT-5 di OpenAI ha stabilito che produce risposte errate in circa il 25% dei casi, secondo un articolo di Tom’s Guide. Sebbene ciò evidenzi un tasso di errore persistente, il modello dimostra miglioramenti significativi in termini di precisione rispetto al suo predecessore, GPT-4.
Nello specifico, ChatGPT-5 commette circa il 45% in meno di errori fattuali e genera sei volte meno risposte allucinate o interamente inventate rispetto a GPT-4. Nonostante questi progressi, lo studio riporta che il modello soffre ancora di eccessiva sicurezza e può presentare con sicurezza informazioni errate, una caratteristica spesso definita allucinazione.
Le prestazioni e la precisione del modello variano a seconda dell’attività specifica. Ad esempio, ha ottenuto un punteggio del 94,6% nel test di matematica AIME del 2025 e una percentuale di successo del 74,9% in una serie di attività di codifica nel mondo reale. Sul più impegnativo benchmark MMLU Pro, un test accademico che copre scienze, matematica e storia, ChatGPT-5 ha raggiunto una precisione di circa l’87%. Tuttavia, commette ancora errori nelle conoscenze generali e nelle domande di ragionamento complesse.
Lo studio attribuisce questi errori a diversi fattori sottostanti. Questi includono i limiti del modello nella comprensione completa delle domande sfumate, nell’utilizzo di dati di addestramento che potrebbero essere obsoleti o incompleti e nella sua progettazione fondamentale basata sulla previsione probabilistica del modello. Questo meccanismo può occasionalmente generare risposte che sembrano plausibili ma che di fatto sono inaccurate.
L’articolo consiglia agli utenti di verificare qualsiasi informazione critica proveniente da ChatGPT-5. Dato che il modello non è infallibile, questa cautela è particolarmente importante per le richieste relative a questioni professionali, accademiche o sanitarie, anche con i miglioramenti documentati in termini di affidabilità del modello.







