Presto, potresti non sapere che stai parlando con un computer

Sommario:

Presto, potresti non sapere che stai parlando con un computer
Presto, potresti non sapere che stai parlando con un computer
Anonim

Da asporto chiave

  • Si avvicina rapidamente il giorno in cui non sarai in grado di distinguere il parlato generato dal computer da quello reale.
  • Google ha recentemente presentato LaMDA, un modello che potrebbe consentire conversazioni più naturali.
  • Produrre un discorso simile a quello umano richiede anche una grande quantità di potenza di elaborazione.
Image
Image

In questo momento, è facile capire quando stai parlando con un computer, ma le cose potrebbero presto cambiare grazie ai recenti progressi nell'IA.

Google ha recentemente presentato LaMDA, un modello sperimentale che secondo la società potrebbe aumentare le capacità dei suoi assistenti di IA conversazionale e consentire conversazioni più naturali. LaMDA mira a conversare normalmente su quasi tutto senza alcun tipo di formazione preliminare.

È uno di un numero crescente di progetti di intelligenza artificiale che potrebbe farti chiedere se stai parlando con un essere umano.

"La mia stima è che entro i prossimi 12 mesi, gli utenti inizieranno a essere esposti e ad abituarsi a queste nuove voci più emotive", James Kaplan, CEO di MeetKai, un assistente vocale virtuale AI conversazionale e ricerca motore, ha detto in un'intervista via e-mail.

"Una volta che ciò accadrà, il discorso sintetizzato di oggi suonerà agli utenti come il discorso dei primi anni 2000 suona per noi oggi."

Assistenti vocali con carattere

LaMDA di Google si basa su Transformer, un'architettura di rete neurale inventata da Google Research. A differenza di altri modelli linguistici, LaMDA di Google è stato addestrato sul dialogo reale.

Parte della sfida per fare un discorso AI dal suono naturale è la natura aperta delle conversazioni, ha scritto Eli Collins di Google in un post sul blog.

Image
Image

"Una chiacchierata con un amico su un programma televisivo potrebbe trasformarsi in una discussione sul paese in cui è stato girato lo spettacolo prima di stabilirsi in un dibattito sulla migliore cucina regionale di quel paese", ha aggiunto.

Le cose si stanno muovendo velocemente con il parlato del robot. Eric Rosenblum, socio dirigente di Tsingyuan Ventures, che investe nell'IA conversazionale, ha affermato che alcuni dei problemi più fondamentali del linguaggio assistito dal computer sono virtualmente risolti.

Ad esempio, il tasso di accuratezza nella comprensione del parlato è già estremamente elevato in servizi come le trascrizioni eseguite dal software Otter.ai o le note mediche prese da DeepScribe.

"La prossima frontiera, però, è molto più difficile", ha aggiunto.

"Mantenere la comprensione del contesto, che è un problema che va ben oltre l'elaborazione del linguaggio naturale e l'empatia, ad esempio i computer che interagiscono con gli esseri umani hanno bisogno di comprendere frustrazione, rabbia, impazienza, ecc. Entrambi questi problemi sono in fase di elaborazione, ma entrambi sono tutt' altro che soddisfacenti."

Le reti neurali sono la chiave

Per generare voci realistiche, le aziende utilizzano tecnologie come le reti neurali profonde, una forma di apprendimento automatico che classifica i dati attraverso livelli, Matt Muldoon, presidente nordamericano di ReadSpeaker, un'azienda che sviluppa software di sintesi vocale, detto in un'intervista via e-mail.

"Questi livelli perfezionano il segnale, ordinandolo in classificazioni più complesse", ha aggiunto. "Il risultato è un linguaggio sintetico che suona stranamente come un essere umano."

Un' altra tecnologia in fase di sviluppo è Prosody Transfer, che prevede la combinazione del suono di una voce di sintesi vocale con lo stile di parlato di un' altra, ha detto Muldoon. C'è anche il trasferimento di apprendimento, che riduce la quantità di dati di addestramento necessari per produrre una nuova voce neurale di sintesi vocale.

Kaplan ha detto che produrre un discorso simile a quello umano richiede anche enormi quantità di potenza di elaborazione. Le aziende stanno sviluppando chip per acceleratori neurali, che sono moduli personalizzati che funzionano insieme ai normali processori.

"La fase successiva sarà l'inserimento di questi chip in hardware più piccolo, come attualmente è già stato fatto per le fotocamere quando è richiesta l'IA per la visione", ha aggiunto. "Non passerà molto tempo prima che questo tipo di capacità di elaborazione sia disponibile nelle cuffie stesse."

Una sfida per lo sviluppo del parlato basato sull'intelligenza artificiale è che tutti parlano in modo diverso, quindi i computer tendono ad avere difficoltà a capirci.

"Pensa agli accenti Georgia vs. Boston vs. North Dakota e se l'inglese è o meno la tua lingua principale", ha detto in un'e-mail Monica Dema, che lavora all'analisi della ricerca vocale presso MDinc. "Pensando a livello globale, è costoso farlo per tutte le regioni di Germania, Cina e India, ma ciò non significa che non sia o non possa essere fatto."

Consigliato: