OpenAI ha annunciato nuove funzionalità di intelligenza vocale per la sua API progettate per assistere gli sviluppatori nella creazione di applicazioni interattive in grado di conversare, trascrivere e tradurre in tempo reale. Il modello GPT‑Realtime‑2 appena lanciato, basato sul ragionamento della classe GPT‑5, mira a gestire richieste degli utenti più complesse rispetto al suo predecessore, GPT-Realtime-1.5.
Inoltre, OpenAI ha introdotto GPT‑Realtime‑Translate, che fornisce servizi di traduzione in tempo reale per oltre 70 lingue di input e 13 lingue di output. Questa funzionalità è progettata per tenere il passo con gli utenti durante le conversazioni.
Un altro importante aggiornamento è la funzionalità GPT-Realtime-Whisper, che offre la trascrizione dal parlato al testo in tempo reale per interazioni in tempo reale. “Insieme, i modelli che stiamo lanciando spostano l’audio in tempo reale da semplici chiamate e risposte verso interfacce vocali che possono effettivamente funzionare: ascoltare, ragionare, tradurre, trascrivere e agire mentre si svolge una conversazione”, ha affermato OpenAI.
Secondo OpenAI, questi aggiornamenti riguardano diversi settori, tra cui il servizio clienti, l’istruzione, i media e gli eventi. La società ha osservato che le nuove funzionalità potrebbero anche presentare rischi di uso improprio, come la creazione di spam o frode. Per mitigare questo problema, OpenAI ha implementato guardrail progettati per fermare le conversazioni che violano le linee guida sui contenuti dannosi.
Tutti i nuovi modelli vocali fanno parte dell’API Realtime di OpenAI. La struttura di fatturazione varia, con GPT-Realtime-Translate e GPT-Realtime-Whisper fatturati al minuto, mentre GPT-Realtime-2 viene fatturato in base al consumo di token.








