L’assistente Gemini AI di Google ora supporta il caricamento di file audio, consentendo agli utenti di trascrivere, riassumere ed estrarre informazioni chiave dalle registrazioni. Questa nuova funzionalità trasforma fino a 10 minuti di promemoria vocali, riunioni, conferenze e interviste in documenti ricercabili.
La funzionalità di caricamento audio è disponibile sia sul Web che tramite le app mobili, accessibili tramite l’interfaccia di caricamento file standard. Secondo il vicepresidente Gemini di Google, Josh Woodward, la funzionalità di caricamento dei file audio è stata la più richiesta dagli utenti.
Questa funzionalità differisce da Gemini Live, che si concentra sui comandi vocali in tempo reale, mentre la nuova funzionalità è progettata per elaborare i dati dai file audio caricati. Durante i test, Gemini ha trascritto accuratamente schizzi da album comici e conversazioni telefoniche, con solo piccoli errori relativi al riconoscimento del nome. L’intelligenza artificiale ha inoltre identificato in modo efficace gli elementi chiave e gli elementi adatti alla creazione di elenchi di cose da fare.
L’aggiunta dell’elaborazione audio è in linea con i recenti miglioramenti di Gemini, tra cui l’integrazione delle app, un’interfaccia visiva basata su schede e opzioni di personalizzazione estese. Questa funzionalità consente agli utenti di convertire registri audio e promemoria salvati in contenuti ricercabili, semplificando un processo che in precedenza richiedeva un software di trascrizione esterno.
Mentre altri assistenti IA come ChatGPT (utilizzando Whisper), Claude di Anthropic e Perplexity offrono anche funzionalità di elaborazione audio, l’implementazione di Gemini è orientata ai casi d’uso quotidiani. Gli utenti possono sfruttare Gemini per semplificare il linguaggio, isolare commenti specifici del relatore, generare domande e creare guide di studio da contenuti audio.
Tuttavia, il limite audio di 10 minuti e i limiti di utilizzo giornaliero per gli utenti del livello gratuito potrebbero limitare la frequenza di utilizzo. Google non ha ancora rilasciato prezzi formali per l’elaborazione audio ad alto volume, poiché attualmente rientra nella normale quota Gemini. Gli utenti che intendono elaborare contenuti audio estesi dovrebbero gestire il proprio utilizzo di conseguenza.
In sostanza, la nuova funzionalità audio di Gemini fornisce un modo semplificato per elaborare ed estrarre informazioni preziose dai file audio, rendendolo uno strumento utile per varie applicazioni personali e professionali.








