Da asporto chiave
- Meta utilizza l'intelligenza artificiale per creare programmi in grado di esprimere le emozioni nel parlato.
- Il team di intelligenza artificiale dell'azienda ha affermato di aver compiuto progressi nella modellazione di vocalizzazioni espressive, come risate, sbadigli, pianti e "chiacchiere spontanee" in tempo reale.
- L'IA viene utilizzata anche per potenziare il riconoscimento vocale.
Potresti presto essere in grado di chattare in modo più naturale con il tuo computer, grazie al potere dell'intelligenza artificiale (AI).
Meta ha affermato di aver compiuto progressi significativi nel suo sforzo di creare sistemi vocali generati dall'intelligenza artificiale più realistici. Il team di intelligenza artificiale dell'azienda ha affermato di aver fatto progressi nella capacità di modellare vocalizzazioni espressive, come risate, sbadigli e pianti, oltre a "chiacchiere spontanee" in tempo reale.
"In ogni conversazione, le persone si scambiano zeppe di segnali non verbali, come intonazioni, espressioni emotive, pause, accenti, ritmi, tutti importanti per le interazioni umane", ha scritto il team nel recente post sul blog. "Ma i sistemi di intelligenza artificiale di oggi non riescono a catturare questi segnali ricchi ed espressivi perché imparano solo dal testo scritto, che cattura ciò che diciamo ma non come lo diciamo."
Discorso più intelligente
Nel post sul blog, il team di Meta AI ha affermato che sta lavorando per superare i limiti dei tradizionali sistemi di intelligenza artificiale che non possono comprendere i segnali non verbali nel parlato, come intonazioni, espressioni emotive, pause, accenti e ritmi. I sistemi sono trattenuti perché possono imparare solo dal testo scritto.
Ma il lavoro di Meta differisce dagli sforzi precedenti perché i suoi modelli di intelligenza artificiale possono utilizzare modelli di elaborazione del linguaggio naturale per catturare l'intera natura del linguaggio parlato. I ricercatori Meta affermano che i nuovi modelli possono consentire ai sistemi di intelligenza artificiale di trasmettere il sentimento che vogliono trasmettere, come la noia o l'ironia.
"Nel prossimo futuro, ci concentreremo sull'applicazione di tecniche senza testo per creare utili applicazioni a valle senza richiedere etichette di testo ad alta intensità di risorse o sistemi di riconoscimento vocale automatico (ASR), come la risposta alle domande (ad es. meteo?")," ha scritto il team nel post sul blog. "Riteniamo che la prosodia nel discorso possa aiutare ad analizzare meglio una frase, che a sua volta facilita la comprensione dell'intento e migliora le prestazioni della risposta alle domande."
Comprensione dei poteri dell'IA
Non solo i computer stanno migliorando nel comunicare il significato, ma l'IA viene anche utilizzata per potenziare il riconoscimento vocale.
Gli scienziati informatici hanno lavorato sul riconoscimento vocale del computer almeno dal 1952, quando tre ricercatori dei Bell Labs hanno creato un sistema in grado di riconoscere singole cifre numeriche, ha detto il chief technology officer di AI Dynamics, Ryan Monsurate, in una e-mail a Lifewire. Negli anni '90, i sistemi di riconoscimento vocale erano disponibili in commercio ma avevano ancora un tasso di errore sufficientemente alto da scoraggiarne l'uso al di fuori di domini applicativi molto specifici come l'assistenza sanitaria.
"Ora che i modelli di deep learning hanno consentito ai modelli di ensemble (come quelli di Microsoft) di ottenere prestazioni sovrumane nel riconoscimento vocale, abbiamo la tecnologia per consentire la comunicazione verbale indipendente dall'oratore con i computer su larga scala", ha affermato Monsurate. "La fase successiva includerà l'abbassamento dei costi in modo che tutti coloro che utilizzano Siri o gli assistenti AI di Google abbiano accesso a questo livello di riconoscimento vocale."
L'intelligenza artificiale è utile per il riconoscimento vocale perché può migliorare nel tempo attraverso l'apprendimento, ha detto a Lifewire in un'intervista via e-mail Ariel Utnik, chief revenue officer e direttore generale della società di intelligenza artificiale Verbit.ai. Ad esempio, Verbit afferma che la sua tecnologia AI interna rileva e filtra il rumore di fondo e gli echi e trascrive gli altoparlanti indipendentemente dall'accento per generare trascrizioni e didascalie dettagliate e professionali da video e audio dal vivo e registrati.
Ma Utnik ha affermato che la maggior parte delle attuali piattaforme di riconoscimento vocale sono accurate solo al 75-80%.
"L'IA non sostituirà mai completamente gli esseri umani poiché la revisione personale di trascrittori, correttori di bozze ed editori è necessaria per garantire una trascrizione finale di alta qualità e massima precisione", ha aggiunto.
Un migliore riconoscimento vocale potrebbe essere utilizzato anche per prevenire gli hacker, ha affermato in una e-mail Sanjay Gupta, vicepresidente globale responsabile dello sviluppo prodotto e aziendale presso la società di riconoscimento vocale Mitek Systems. La ricerca indica che entro due anni, il 20 percento di tutti gli attacchi di acquisizione di account riusciti utilizzerà l'aumento della voce sintetica, ha aggiunto.
"Ciò significa che man mano che la tecnologia deep fake diventa più sofisticata, dobbiamo creare contemporaneamente una sicurezza avanzata in grado di combattere queste tattiche insieme ai deep fake di immagini e video", ha affermato Gupta. "La lotta contro lo spoofing vocale richiede una tecnologia di rilevamento della vivacità, in grado di distinguere tra una voce dal vivo e una versione registrata, sintetica o generata dal computer di una voce."
Correzione 2022-05-04: corretta l'ortografia del nome di Ryan Monsurate nel paragrafo 9.