Da asporto chiave
- DeepZen utilizza l'intelligenza artificiale (intelligenza artificiale) per creare audiolibri sorprendentemente realistici dal testo.
- La tecnologia utilizza veri doppiatori umani per fornire gli elementi costitutivi.
- Amazon e Audible attualmente non accettano audiolibri generati dal computer.
DeepZen è un'azienda che crea voci computerizzate utilizzate negli audiolibri, basate sulle voci reali di attori umani. La qualità è spaventosamente abbastanza buona da poter essere ascoltata per ore alla volta. L'espediente qui è la componente AI (intelligenza artificiale), che può leggere il testo e dedurre la risposta emotiva corretta in base al contesto. Quindi mette quell'emozione nella voce.
È impressionante e molto conveniente. Ma vogliamo davvero un'esperienza di audiolibro omogenea? E che dire di quei doppiatori?
"Dal punto di vista dell'editore indipendente, tutto ciò che riduce i costi di produzione degli audiolibri è molto interessante", ha detto a Lifewire via e-mail Rick Carlile, proprietario dell'editore indipendente Carlile Media.
"Ma quell'attrazione presuppone che il prodotto sia di qualità uguale alla narrazione tradizionale. Non credo che siamo ancora arrivati al cento per cento. Non fraintendetemi, DeepZen è sorprendentemente buono. È un un'enorme svolta e i suoi creatori meritano un immenso elogio e successo. Ma non è ancora perfetto."
Audio 'abbastanza buono'
Il modo migliore per comprendere la qualità di DeepZen è ascoltare i campioni. Se non sapessi che sono generati dal computer, potresti anche non rendertene conto. Comunque non per un po'. Supponiamo che l'IA di DeepZen sia perfetta e che non interpreti mai male le note emotive che dovrebbe suonare.
Anche allora, un essere umano può offrire interpretazioni più sfumate e spesso più sorprendenti. Un attore potrebbe dare una svolta inaspettata alle parole che un computer non considererebbe mai. E in re altà, l'interpretazione dell'IA non è ancora così buona come quella di un doppiatore professionista.
"Come uno che lavora sui film e, più recentemente, nel mondo della narrazione audio, mentre sono impressionato dall'intelligenza artificiale, so per certo che ci sono profonde profondità di significato che una macchina non può interpretare, " voce professionale l'attore Paul Cram ha detto a Lifewire via e-mail.
"Ci sarà un'ondata di autori sconosciuti che lo useranno? Garantisco che lo farà perché è 'abbastanza buono'".
Essere abbastanza bravi, unito alla comodità e al risparmio sui costi, potrebbe essere sufficiente per portare gli editori indipendenti al servizio.
"Gli audiolibri possono costare fino a $ 500 per ora finita di audio (molto di più per una voce di celebrità), e questo non include il costo del tempo di gestione e amministrazione", afferma Carlile. "Poter dimezzare questo costo semplicemente caricando un manoscritto su un provider come DeepZen è estremamente interessante."
Problemi di conversazione
Non è ancora così facile come licenziare i doppiatori e caricare manoscritti su DeepZen. Al momento c'è un ostacolo alla facile orazione AI degli audiolibri, ed è di Amazon.
"Attualmente, ACX, il percorso dell'auto-editore verso la distribuzione di audiolibri Audible e Amazon, non accetterà audiolibri che un essere umano non ha registrato", afferma Carlile.
Perché? Qualità. Ecco la voce delle FAQ dal sito web:
"La sintesi vocale o altre registrazioni automatizzate non sono consentite. Gli ascoltatori udibili scelgono gli audiolibri per l'esecuzione del materiale, così come per la storia. Per soddisfare questa aspettativa, il tuo audiolibro deve essere registrato da un essere umano."
Ciò significa che gli audiolibri generati da DeepZen sono usciti, almeno per ora. Questa è pura speculazione, ma DeepZen sembrerebbe un'acquisizione piuttosto buona per Amazon, permettendogli di vendere il servizio e mantenerlo esclusivamente per i libri Audible. E anche se ciò non accadesse, se la qualità degli audiolibri generati dal computer è buona come questa, non ci sono molte ragioni per non fare un'eccezione a questa regola.
Saresti felice di ascoltare audiolibri realizzati in questo modo? Quando accadrà, la maggior parte delle persone non sospetterà nemmeno. Alcuni potrebbero preferire la perfezione delle voci generate al computer perché saranno libere dai tic vocali e dalle abitudini che a volte possono distrarre. La tecnologia è adatta anche per videogiochi, spot televisivi e radiofonici e qualsiasi altro scenario in cui assumeresti un doppiatore.
La tecnologia di DeepZen sarebbe anche un ottimo modo per creare automaticamente podcast di notizie da articoli scritti, che potrebbero essere utili per il pendolarismo.
E quei doppiatori? Bene, ci sarà almeno un'opportunità: possono andare a lavorare per DeepZen.