Per la prima volta, l’intelligenza artificiale (AI) è stata in grado di ottenere una maggiore precisione rispetto agli umani nel riconoscere le conversazioni quotidiane. In futuro, la tecnologia potrebbe servire come base per le traduzioni automatiche.
Gli assistenti digitali come Alexa, Cortana o Siri consentono la trascrizione automatica di testi e traduzioni parlati. A tale scopo, i sistemi di riconoscimento vocale utilizzano reti neurali artificiali che assegnano segnali acustici a singole sillabe e parole utilizzando le librerie. I risultati sono ora molto buoni quando gli assistenti vengono indirizzati direttamente o quando un testo viene letto ad alta voce. Tuttavia, nella vita di tutti i giorni, si verificano ancora spesso problemi che, come ha dimostrato uno studio recentemente condotto dalla Ruhr-Universität-Bochum (RUB), possono anche portare all’attivazione involontaria di assistenti vocali a causa di parole chiave fraintese.
Anche le conversazioni tra più persone stanno ancora causando frequentemente problemi al momento. Secondo Alex Waibel del Karlsruhe Institute of Technology (KIT) “ci sono interruzioni, balbuzie, suoni di riempimento come ‘ah’ o ‘hm’ e anche risate o tosse quando le persone parlano tra loro. Inoltre, come spiega Waibel, “le parole sono spesso pronunciate in modo poco chiaro. Di conseguenza, anche gli esseri umani hanno problemi a creare una trascrizione esatta di un dialogo così informale. Tuttavia, le difficoltà ancora maggiori sono poste dall’intelligenza artificiale (AI).
Conversazioni quotidiane problematiche per l’IA
Secondo un preprint pubblicato da arXiv, gli scienziati di Waibel sono ora riusciti a sviluppare un’IA che trascrive le conversazioni quotidiane più velocemente e meglio degli umani. Il nuovo sistema si basa su una tecnologia che traduce le lezioni universitarie dal tedesco e dall’inglese in tempo reale. Le cosiddette reti encoder-decoder vengono utilizzate per analizzare i segnali acustici e assegnare loro delle parole. Secondo Waibel, “il riconoscimento del discorso spontaneo è la componente più importante di questo sistema perché errori e ritardi rendono rapidamente la traduzione incomprensibile.
Maggiore precisione e ridotta latenza
Ora gli scienziati di KIT hanno notevolmente migliorato il sistema e, in particolare, ridotto significativamente la latenza. Waibel e il suo team hanno utilizzato un approccio basato sulla probabilità di determinate combinazioni di parole e lo hanno collegato con altri due moduli di riconoscimento.
In un test standardizzato, il nuovo sistema di riconoscimento vocale ha ascoltato estratti da una raccolta di circa 2.000 ore di conversazioni telefoniche, che il sistema doveva trascrivere automaticamente. Secondo Waibel, “il tasso di errore umano qui è di circa il 5,5%. L’intelligenza artificiale, d’altra parte, ha raggiunto solo un tasso di errore del 5,0%, superando per la prima volta gli umani nel riconoscere le conversazioni quotidiane. Anche il tempo di latenza, ovvero il ritardo tra l’arrivo del segnale e il risultato, è molto veloce, in media 1,63 secondi, ma non si avvicina ancora del tutto alla latenza media di 1 secondo di un essere umano.
In futuro, il nuovo sistema potrebbe essere utilizzato, ad esempio, come base per traduzioni automatiche o per altri scenari in cui i computer devono elaborare il linguaggio naturale.