La società francese di intelligenza artificiale Mistral ha lanciato un modello di sintesi vocale open source denominato Voxtral TTS, progettato per assistenti di intelligenza artificiale vocale e applicazioni aziendali come l’assistenza clienti. Questo sviluppo posiziona Mistral direttamente contro concorrenti tra cui ElevenLabs, Deepgram e OpenAI.
Voxtral TTS supporta nove lingue: inglese, francese, tedesco, spagnolo, olandese, portoghese, italiano, hindi e arabo. Il modello mira a soddisfare le richieste dei clienti per un modello vocale flessibile adatto a vari dispositivi edge, fornendo una soluzione economicamente vantaggiosa che mantenga prestazioni elevate.
Pierre Stock, vicepresidente delle operazioni scientifiche presso Mistral AI, ha dichiarato: “I nostri clienti hanno chiesto un modello vocale. Quindi abbiamo creato un modello vocale di piccole dimensioni che possa essere inserito in uno smartwatch, uno smartphone, un laptop o altri dispositivi edge”. Ha sottolineato che, sebbene il modello abbia un prezzo competitivo, offre prestazioni all’avanguardia.
Il modello consente l’adattamento di voci personalizzate con campioni inferiori a cinque secondi. Cattura caratteristiche sottili come accenti e irregolarità del parlato. Inoltre, Voxtral TTS, basato su Ministral 3B, può cambiare lingua senza perdere la qualità della voce, rendendolo adatto alla traduzione e al doppiaggio in tempo reale.
I parametri prestazionali del modello sono notevoli. Ha un time-to-first-audio (TTFA) di 90 millisecondi per un campione di 10 secondi di 500 caratteri e un fattore di tempo reale (RTF) di 6x, il che significa che può eseguire il rendering di una clip in circa 1,6 secondi.
Questo lancio segue l’introduzione da parte di Mistral di due modelli di trascrizione all’inizio del 2023, mirati all’elaborazione di grandi batch e a casi d’uso in tempo reale a bassa latenza. Voxtral TTS fa parte della strategia di Mistral volta a fornire una suite completa di prodotti vocali alle aziende.
Stock ha delineato i piani futuri, affermando: “Abbiamo in programma di avere una piattaforma end-to-end in grado di gestire flussi multimodali di input, inclusi audio, testo e immagini”. Questa piattaforma ha lo scopo di migliorare le informazioni elaborate dai sistemi in cui si integra.








