Da asporto chiave
- Le aziende stanno facendo una corsa per trovare modi per rendere più realistico il suono del parlato generato dal computer.
- NVIDIA ha recentemente presentato strumenti in grado di catturare il suono del parlato naturale consentendoti di addestrare un'IA con la tua voce.
- Intonazione, emozione e musicalità sono le caratteristiche che ancora mancano alle voci del computer, dice un esperto.
Il parlato generato dal computer potrebbe presto suonare molto più umano.
Il produttore di componenti per computer NVIDIA ha recentemente presentato strumenti in grado di catturare il suono del parlato naturale consentendoti di addestrare un'IA con la tua voce. Il software può anche fornire le parole di un oratore usando la voce di un' altra persona. Fa parte di una crescente spinta per rendere più realistico il parlato al computer.
"La tecnologia avanzata di IA vocale consente agli utenti di parlare in modo naturale, combinando molte domande in una singola frase ed eliminando la necessità di ripetere costantemente i dettagli della query originale", Michael Zagorsek, direttore operativo della società di riconoscimento vocale SoundHound, ha detto a Lifewire in un'intervista via e-mail.
"L'aggiunta di più lingue, ora disponibile sulla maggior parte delle piattaforme di intelligenza artificiale vocale, rende gli assistenti vocali digitali accessibili in più aree geografiche e per più popolazioni", ha aggiunto.
Robospeech Rising
Alexa di Amazon e Siri di Apple suonano molto meglio del parlato al computer anche solo dieci anni fa, ma non verranno scambiati presto per autentiche voci umane.
Per rendere più naturale il suono del parlato artificiale, il team di ricerca sulla sintesi vocale di NVIDIA ha sviluppato un modello RAD-TTS. Il sistema consente alle persone di insegnare un modello di sintesi vocale (TTS) con la propria voce, inclusi il ritmo, la tonalità, il timbro e altri fattori.
L'azienda ha utilizzato il suo nuovo modello per creare una narrazione vocale dal suono più colloquiale per la sua serie di video I Am AI.
"Con questa interfaccia, il nostro produttore video potrebbe registrarsi mentre legge la sceneggiatura del video e quindi utilizzare il modello AI per convertire il suo discorso nella voce del narratore femminile. Usando questa narrazione di base, il produttore potrebbe quindi dirigere l'IA come un il doppiatore, modificando il discorso sintetizzato per enfatizzare parole specifiche e modificando il ritmo della narrazione per esprimere meglio il tono del video", ha scritto NVIDIA sul suo sito web.
Più difficile di quanto sembri
Rendere naturale il suono del parlato generato dal computer è un problema complicato, dicono gli esperti.
"Devi registrare centinaia di ore della voce di qualcuno per crearne una versione per computer", ha detto a Lifewire Nazim Ragimov, CEO della società di software di sintesi vocale Kukarella, in un'intervista via e-mail. "E la registrazione deve essere di alta qualità, registrata in uno studio professionale. Più ore di parlato di qualità vengono caricate ed elaborate, migliore sarà il risultato."
La sintesi vocale può essere utilizzata nei giochi, per aiutare le persone con disabilità vocali o per aiutare gli utenti a tradurre da una lingua all' altra con la propria voce.
Intonazione, emozione e musicalità sono le caratteristiche che ancora mancano alle voci del computer, ha detto Ragimov.
Se l'IA può aggiungere questi collegamenti mancanti, il parlato generato dal computer sarà "indistinguibile dalle voci di attori reali", ha aggiunto. "Questo è un lavoro in corso. Altre voci potranno competere con i conduttori radiofonici. Presto vedrai voci in grado di cantare e leggere audiolibri."
La tecnologia vocale sta diventando sempre più popolare in un'ampia gamma di aziende.
"L'industria automobilistica ha recentemente adottato l'IA vocale come un modo per creare esperienze di guida più sicure e connesse", ha affermato Zagorsek.
"Da allora, gli assistenti vocali sono diventati sempre più onnipresenti poiché i marchi cercano modi per migliorare le esperienze dei clienti e soddisfare la domanda di metodi più facili, più sicuri, più convenienti, efficienti e igienici per interagire con i loro prodotti e servizi."
In genere, l'IA vocale converte le query in risposte in un processo in due fasi che inizia trascrivendo il parlato in testo utilizzando il riconoscimento vocale automatico (ASR) e quindi inserendo quel testo in un modello di comprensione del linguaggio naturale (NLU).
L'approccio di SoundHound combina questi due passaggi in un unico processo per tenere traccia del parlato in tempo reale. L'azienda afferma che questa tecnica consente agli assistenti vocali di comprendere il significato delle domande degli utenti, anche prima che la persona abbia finito di parlare.
I futuri progressi nel parlato al computer, inclusa la disponibilità di una varietà di opzioni di connettività da solo incorporata (nessuna connessione cloud richiesta) a ibrida (embedded più cloud) e solo cloud "daranno più scelta alle aziende di tutti i settori in termini di costi, privacy e disponibilità di potenza di elaborazione", ha affermato Zagoresk.
NVIDIA ha affermato che i suoi nuovi modelli di intelligenza artificiale vanno oltre il lavoro di doppiaggio.
"La sintesi vocale può essere utilizzata nei giochi, per aiutare le persone con disabilità vocali o per aiutare gli utenti a tradurre da una lingua all' altra con la propria voce", ha scritto la società. "Può persino ricreare le esibizioni di cantanti iconici, abbinando non solo la melodia di una canzone ma anche l'espressione emotiva dietro la voce."