ChatGPT continua a faticare con un’attività di conteggio di base nonostante i progressi nel suo modello sottostante. Il chatbot afferma erroneamente che la parola “fragola” contiene due lettere “r”, quando il conteggio effettivo è tre. Questo problema persiste anche nell’ultima versione, GPT-5.2, rilasciata nel dicembre 2025. I moderni sistemi di intelligenza artificiale gestiscono con facilità operazioni complesse, come la generazione di immagini di marketing, la compilazione di report tramite browser di agenti o la composizione di brani in cima alle classifiche. Tuttavia, esitano nei compiti semplici che un bambino di sette anni potrebbe portare a termine senza sforzo. Contare la “r” in “fragola” esemplifica questo divario. La parola si scompone in fragola, producendo tre istanze della lettera “r”. Recenti test confermano che il problema rimane irrisolto. Dopo il lancio di GPT-5.2, le query a ChatGPT hanno prodotto una risposta diretta pari a “due”. Ciò avviene nonostante miliardi di dollari di investimenti, elevate richieste di hardware che hanno fatto lievitare i prezzi della RAM e un significativo utilizzo globale di acqua legato alla formazione sull’intelligenza artificiale. La causa principale risiede nella progettazione tokenizzata di input e output di modelli linguistici di grandi dimensioni come ChatGPT. Invece di elaborare singole lettere, il sistema divide il testo in token, che possono essere parole intere, sillabe o parti di parole. Per “fragola”, OpenAI Tokenizer rivela tre token: “st”, “raw” e “berry”. Solo due di questi – “crudo” e “bacca” – contengono la lettera “r”. Il modello conta quindi i token con “r” anziché con singole lettere. Questa tokenizzazione influisce su parole simili. ChatGPT segnala che anche “lampone” ha due “r”, trascurando la terza. Il sistema tratta “berry” come un singolo token, comprimendo le sue due “r” in un’unica unità. GPT-5.x utilizza il nuovo metodo di tokenizzazione “o200k_harmony”, introdotto con OpenAI o1-mini e GPT-4o, ma l’errore “fragola” persiste. OpenAI ha risolto molti problemi basati sui token sin dal debutto di ChatGPT alla fine del 2022. Le prime versioni riscontravano problemi con frasi specifiche che innescavano risposte irregolari o errori di elaborazione. Le patch hanno modificato i dati di addestramento e migliorato i sistemi, risolvendo casi come la sillabazione di “Mississippi”—Mississippi—o l’inversione di “lecca-lecca” con le lettere nell’ordine corretto. Tuttavia, i modelli di intelligenza artificiale generalmente hanno prestazioni scarse su conteggi precisi di piccoli valori, anche se eccellono in matematica e risoluzione dei problemi. I test sulle classiche parole problematiche non hanno mostrato fallimenti oltre al noto caso della fragola. ChatGPT ha gestito correttamente “Mississippi” e “lecca-lecca”. Un residuo notevole riguarda la stringa “solidgoldmagikarp”. In GPT-3, questa frase ha causato crolli, inclusi insulti degli utenti, output incomprensibili ed errori di elaborazione dovuti a stranezze della tokenizzazione. GPT-5.2 evita il tracollo ma produce un’allucinazione: afferma che “solidgoldmagikarp” è uno scherzo Pokémon segreto nascosto nei repository GitHub dagli sviluppatori. L’attivazione presumibilmente trasforma avatar, icone repo e funzionalità in elementi a tema Pokémon. Questa affermazione è completamente falsa, derivante dai problemi storici della stringa. Altri modelli di intelligenza artificiale rispondono correttamente alla domanda “fragola”. Perplexity, Claude, Grok, Gemini, Qwen e Copilot identificano ciascuno tre “r”. Anche coloro che sfruttano i modelli OpenAI hanno successo perché utilizzano sistemi di tokenizzazione distinti che catturano meglio le singole lettere. ChatGPT funziona come un motore di previsione, facendo affidamento su modelli di addestramento per anticipare il testo successivo piuttosto che su una vera intelligenza a livello di lettera. La tokenizzazione dà priorità all’efficienza rispetto al conteggio letterale, spiegando peculiarità persistenti come il problema della fragola. Dalla fine del 2022, OpenAI ha perfezionato in modo iterativo la gestione dei token. Il lancio iniziale ha rivelato vulnerabilità a determinate stringhe, provocando cicli introspettivi o risposte furiose. Correzioni sistematiche hanno preso di mira questi problemi, come l’enumerazione delle lettere “Mississippi” e l’inversione del “lecca-lecca”, che ora funzionano in modo accurato. Limitazioni più ampie nel conteggio esatto persistono tra i modelli. I conteggi di piccolo valore mettono alla prova le architetture dei trasformatori, nonostante i punti di forza dell’aritmetica. Il test “solidgoldmagikarp” sottolinea la persistente sensibilità dei token, che si evolve da fallimenti palesi a narrazioni inventate. I confronti evidenziano il ruolo della tokenizzazione. Perplexity utilizza un proprio schema, consentendo il rilevamento preciso della “r” in “fragola”. Claude di Anthropic, Grok di xAI, Gemini di Google, Qwen di Alibaba e Copilot di Microsoft restituiscono tutti il conteggio fino a tre. Le variazioni nei limiti dei token consentono una granularità a livello di lettera assente nella configurazione di OpenAI. Lo strumento OpenAI Tokenizer mostra la suddivisione: “st-raw-berry”. “St” manca della “r”, mentre “raw” ne ha una e “berry” ne ha due, ma conta come un token. “Raspberry” segue l’esempio: i token comprimono la “r” finale. L’adozione di “o200k_harmony” da parte di GPT-5.2 mirava a migliorare l’efficienza delle epoche o1-mini e GPT-4o, ma la tokenizzazione della fragola mantiene il difetto. La cronologia delle patch di OpenAI suggerisce che gli interventi mirati funzionano per i casi esposti. I primi ChatGPT mostravano spirali indotte da token su frasi oltre il conteggio. “Solidgoldmagikarp” esemplifica: l’elaborazione dei token di GPT-3 è sovraccarica, producendo il caos. GPT-5.2 lo riformula come un uovo di Pasqua GitHub inesistente, preservando l’errore attraverso l’invenzione. I test confermano la portata delle correzioni. “Mississippi” ora elenca accuratamente 11 lettere: quattro “i”, quattro “s”, due “p”, una “m”. “Lollipop” si trasforma in “pillopol”, intatto. Nonostante ciò, permangono deficit di conteggio fondamentali. I modelli approssimano piuttosto che enumerare con precisione in contesti vincolati. I fornitori alternativi eludono tramite tokenizzatori personalizzati. L’approccio potenziato dalla ricerca di Perplexity, la formazione costituzionale di Claude, i dati in tempo reale di Grok, l’analisi multimodale di Gemini, l’ottimizzazione multilingue di Qwen, l’ottimizzazione aziendale di Copilot: tutto consente la corretta risposta della fragola. Questa disparità sottolinea l’importanza cruciale della tokenizzazione. La codifica delle coppie di byte di OpenAI dà la priorità alle sottoparole comuni, sacrificando le distribuzioni di lettere rare in composti come “fragola”. Contesto storico: il lancio alla fine del 2022 è stato inondato di segnalazioni di stranezze dei token. OpenAI ha risposto con rapidi aggiornamenti, eliminando la maggior parte degli exploit palesi entro il 2025. GPT-5.2, attuale al momento della stesura, incorpora perfezionamenti cumulativi ma mantiene la fragola come difetto emblematico. Contenuto correlato alle note di riferimento della barra laterale: “Sapevi che ChatGPT può farlo?” di Amir Bohlooli, datato 27 settembre 2025.
Source: ChatGPT GPT-5.2 sbaglia il conteggio della ‘r’ in fragola





