Presto, potresti non sapere che stai parlando con un computer

2025 Autore: Abigail Brown | [email protected]. Ultima modifica: 2025-01-24 12:13

Da asporto chiave

Si avvicina rapidamente il giorno in cui non sarai in grado di distinguere il parlato generato dal computer da quello reale.
Google ha recentemente presentato LaMDA, un modello che potrebbe consentire conversazioni più naturali.
Produrre un discorso simile a quello umano richiede anche una grande quantità di potenza di elaborazione.

In questo momento, è facile capire quando stai parlando con un computer, ma le cose potrebbero presto cambiare grazie ai recenti progressi nell'IA.

Google ha recentemente presentato LaMDA, un modello sperimentale che secondo la società potrebbe aumentare le capacità dei suoi assistenti di IA conversazionale e consentire conversazioni più naturali. LaMDA mira a conversare normalmente su quasi tutto senza alcun tipo di formazione preliminare.

È uno di un numero crescente di progetti di intelligenza artificiale che potrebbe farti chiedere se stai parlando con un essere umano.

"La mia stima è che entro i prossimi 12 mesi, gli utenti inizieranno a essere esposti e ad abituarsi a queste nuove voci più emotive", James Kaplan, CEO di MeetKai, un assistente vocale virtuale AI conversazionale e ricerca motore, ha detto in un'intervista via e-mail.

"Una volta che ciò accadrà, il discorso sintetizzato di oggi suonerà agli utenti come il discorso dei primi anni 2000 suona per noi oggi."

Assistenti vocali con carattere

LaMDA di Google si basa su Transformer, un'architettura di rete neurale inventata da Google Research. A differenza di altri modelli linguistici, LaMDA di Google è stato addestrato sul dialogo reale.

Parte della sfida per fare un discorso AI dal suono naturale è la natura aperta delle conversazioni, ha scritto Eli Collins di Google in un post sul blog.

"Una chiacchierata con un amico su un programma televisivo potrebbe trasformarsi in una discussione sul paese in cui è stato girato lo spettacolo prima di stabilirsi in un dibattito sulla migliore cucina regionale di quel paese", ha aggiunto.

Le cose si stanno muovendo velocemente con il parlato del robot. Eric Rosenblum, socio dirigente di Tsingyuan Ventures, che investe nell'IA conversazionale, ha affermato che alcuni dei problemi più fondamentali del linguaggio assistito dal computer sono virtualmente risolti.

Ad esempio, il tasso di accuratezza nella comprensione del parlato è già estremamente elevato in servizi come le trascrizioni eseguite dal software Otter.ai o le note mediche prese da DeepScribe.

"La prossima frontiera, però, è molto più difficile", ha aggiunto.

"Mantenere la comprensione del contesto, che è un problema che va ben oltre l'elaborazione del linguaggio naturale e l'empatia, ad esempio i computer che interagiscono con gli esseri umani hanno bisogno di comprendere frustrazione, rabbia, impazienza, ecc. Entrambi questi problemi sono in fase di elaborazione, ma entrambi sono tutt' altro che soddisfacenti."

Le reti neurali sono la chiave

Per generare voci realistiche, le aziende utilizzano tecnologie come le reti neurali profonde, una forma di apprendimento automatico che classifica i dati attraverso livelli, Matt Muldoon, presidente nordamericano di ReadSpeaker, un'azienda che sviluppa software di sintesi vocale, detto in un'intervista via e-mail.

"Questi livelli perfezionano il segnale, ordinandolo in classificazioni più complesse", ha aggiunto. "Il risultato è un linguaggio sintetico che suona stranamente come un essere umano."

Un' altra tecnologia in fase di sviluppo è Prosody Transfer, che prevede la combinazione del suono di una voce di sintesi vocale con lo stile di parlato di un' altra, ha detto Muldoon. C'è anche il trasferimento di apprendimento, che riduce la quantità di dati di addestramento necessari per produrre una nuova voce neurale di sintesi vocale.

Kaplan ha detto che produrre un discorso simile a quello umano richiede anche enormi quantità di potenza di elaborazione. Le aziende stanno sviluppando chip per acceleratori neurali, che sono moduli personalizzati che funzionano insieme ai normali processori.

"La fase successiva sarà l'inserimento di questi chip in hardware più piccolo, come attualmente è già stato fatto per le fotocamere quando è richiesta l'IA per la visione", ha aggiunto. "Non passerà molto tempo prima che questo tipo di capacità di elaborazione sia disponibile nelle cuffie stesse."

Una sfida per lo sviluppo del parlato basato sull'intelligenza artificiale è che tutti parlano in modo diverso, quindi i computer tendono ad avere difficoltà a capirci.

"Pensa agli accenti Georgia vs. Boston vs. North Dakota e se l'inglese è o meno la tua lingua principale", ha detto in un'e-mail Monica Dema, che lavora all'analisi della ricerca vocale presso MDinc. "Pensando a livello globale, è costoso farlo per tutte le regioni di Germania, Cina e India, ma ciò non significa che non sia o non possa essere fatto."

Consigliato:

Presto, potresti non sapere che stai parlando con un computer

Sommario:

Da asporto chiave

Assistenti vocali con carattere

Le reti neurali sono la chiave

Consigliato:

Presto potresti trovare più facile destreggiarsi tra le app tra dispositivi Android

Potresti presto provare la sensazione di bere acqua in VR

Perché potresti (o non potresti) vedere presto l'immagine nell'immagine di YouTube

Potresti presto essere in grado di entrare nel Metaverso senza cuffie

Cose sull'home theater che potresti non sapere

Come utilizzare la funzione Tavole da disegno di Adobe Photoshop CC

Come scaricare Microsoft Edge per Mac

Come disattivare le notifiche su un Mac

Risoluzione dei problemi di Nikon: come riparare la tua fotocamera Nikon

Come risolverlo quando il controllo ortografico di Outlook non funziona

Pixel arrotolabile: notizie e prezzo previsto, data di uscita, specifiche; e altre voci

Guarda la trasmissione TV in 4K con uno degli ultimi modelli TV NextGen di Hisense

Vale la pena acquistare un Kindle? 4 motivi per acquistarne uno

YouTube TV vale la pena? 5 motivi per iscriversi

Il nuovo mouse da gioco di Razer include un aspetto straordinario e funzionalità wireless

Perché Twitter offre un servizio di notizie meteorologiche in abbonamento

I 9 migliori altoparlanti per computer, testati da Lifewire

Come guardare lo streaming live di Indy 500

Come inviare e-mail a destinatari sconosciuti in AOL

Nvidia Shield ottiene l'app Apple TV