OpenAI ha rilasciato GPT-5.4 giovedì, introducendo una versione standard insieme alle varianti GPT-5.4 Thinking e GPT-5.4 Pro. L’azienda ha descritto il modello come il modello di frontiera più capace ed efficiente per il lavoro professionale.

La versione API supporta finestre di contesto fino a 1 milione di token, la più grande disponibile da OpenAI. Il modello dimostra inoltre una migliore efficienza dei token, risolvendo i problemi con un numero significativamente inferiore di token rispetto al suo predecessore.

GPT-5.4 ha ottenuto punteggi record nei benchmark sull’utilizzo del computer OSWorld-Verified e WebArena Verified. Ha inoltre ottenuto un punteggio dell’83% nel test GDPval di OpenAI per le attività di knowledge work.

Secondo Brendan Foody, CEO di Mercor, il modello ha guidato il benchmark APEX-Agents di Mercor, che mette alla prova le competenze professionali in diritto e finanza. Foody ha affermato che GPT-5.4 eccelle nella creazione di risultati a lungo orizzonte come slide deck e modelli finanziari, offrendo le massime prestazioni più velocemente e a costi inferiori rispetto alla concorrenza.

OpenAI ha affermato che il modello ha il 33% in meno di probabilità di commettere errori nelle singole affermazioni rispetto a GPT 5.2. Nel complesso, le risposte hanno il 18% in meno di probabilità di contenere errori.

L’azienda ha introdotto Tool Search per gestire le chiamate agli strumenti nell’API. Il sistema cerca le definizioni degli strumenti secondo necessità, riducendo l’uso dei token e i costi nei sistemi con molti strumenti.

OpenAI ha aggiunto una nuova valutazione della sicurezza per testare il monitoraggio della catena di pensiero. La valutazione ha mostrato che l’inganno è meno probabile nella versione GPT-5.4 Thinking, suggerendo che il modello non ha la capacità di nascondere il proprio ragionamento.


Credito immagine in primo piano