Da asporto chiave
- I ricercatori affermano di poter insegnare all'IA ad etichettare i video guardando e ascoltando.
- Il sistema di intelligenza artificiale impara a rappresentare i dati per acquisire concetti condivisi tra dati visivi e audio.
-
Fa parte di uno sforzo per insegnare all'IA a comprendere concetti che gli esseri umani non hanno problemi ad apprendere ma che i computer fanno fatica a capire.
Un nuovo sistema di intelligenza artificiale (AI) potrebbe guardare e ascoltare i tuoi video ed etichettare le cose che stanno accadendo.
I ricercatori del MIT hanno sviluppato una tecnica che insegna all'IA a catturare azioni condivise tra video e audio. Ad esempio, il loro metodo può capire che l'atto di un bambino che piange in un video è correlato alla parola pronunciata "piangere" in una clip audio. Fa parte di uno sforzo per insegnare all'IA come comprendere concetti che gli esseri umani non hanno problemi ad apprendere, ma che i computer fanno fatica a comprendere.
"Il paradigma di apprendimento prevalente, l'apprendimento supervisionato, funziona bene quando si hanno set di dati ben descritti e completi", ha detto a Lifewire l'esperto di intelligenza artificiale Phil Winder in un'intervista via e-mail. "Purtroppo, i set di dati sono raramente completi perché il mondo reale ha la cattiva abitudine di presentare nuove situazioni."
IA più intelligente
I computer hanno difficoltà a capire gli scenari quotidiani perché hanno bisogno di sgranocchiare dati piuttosto che suoni e immagini come gli esseri umani. Quando una macchina "vede" una foto, deve codificare quella foto in dati che può utilizzare per eseguire un'attività come la classificazione di un'immagine. L'IA può impantanarsi quando gli input arrivano in più formati, come video, clip audio e immagini.
"La sfida principale qui è, come può una macchina allineare queste diverse modalità? Come esseri umani, questo è facile per noi", ha detto Alexander Liu, ricercatore del MIT e primo autore di un articolo sull'argomento, in un comunicato stampa. "Vediamo un'auto e poi sentiamo il rumore di un'auto che passa e sappiamo che sono la stessa cosa. Ma per l'apprendimento automatico, non è così semplice."
Il team di Liu ha sviluppato una tecnica di intelligenza artificiale che, secondo loro, impara a rappresentare i dati per acquisire concetti condivisi tra dati visivi e audio. Utilizzando questa conoscenza, il loro modello di apprendimento automatico può identificare dove si sta svolgendo un'azione specifica in un video ed etichettarlo.
Il nuovo modello prende dati grezzi, come video e didascalie di testo corrispondenti, e li codifica estraendo caratteristiche o osservazioni su oggetti e azioni nel video. Quindi mappa quei punti dati in una griglia, nota come spazio di incorporamento. Il modello raggruppa dati simili come singoli punti nella griglia; ciascuno di questi punti dati, o vettori, è rappresentato da una singola parola.
Ad esempio, un video clip di una persona che fa il giocoliere potrebbe essere mappato su un vettore etichettato "giocoleria".
I ricercatori hanno progettato il modello in modo che possa utilizzare solo 1.000 parole per etichettare i vettori. Il modello può decidere quali azioni o concetti desidera codificare in un singolo vettore, ma può utilizzare solo 1.000 vettori. Il modello sceglie le parole che ritiene rappresentino meglio i dati.
"Se c'è un video sui maiali, il modello potrebbe assegnare la parola 'maiale' a uno dei 1.000 vettori. Quindi, se il modello sente qualcuno che dice la parola 'maiale' in un clip audio, dovrebbe comunque usare lo stesso vettore per codificarlo", ha spiegato Liu.
I tuoi video, decodificati
Migliori sistemi di etichettatura come quello sviluppato dal MIT potrebbero aiutare a ridurre i pregiudizi nell'IA, ha detto a Lifewire in un'intervista via e-mail Marian Beszedes, capo della ricerca e sviluppo presso la società di biometria Innovatrics. Beszedes ha suggerito che l'industria dei dati può visualizzare i sistemi di intelligenza artificiale dal punto di vista del processo di produzione.
"I sistemi accettano i dati grezzi come input (materie prime), li preelaborano, li acquisiscono, prendono decisioni o previsioni e producono analisi (prodotti finiti)," ha affermato Beszedes. "Chiamiamo questo flusso di processo la "fabbrica dei dati" e, come altri processi di produzione, dovrebbe essere soggetto a controlli di qualità. L'industria dei dati deve considerare la distorsione dell'IA come un problema di qualità.
"Dal punto di vista del consumatore, i dati etichettati erroneamente rendono più difficile, ad esempio, la ricerca online di immagini/video specifici", ha aggiunto Beszedes. "Con l'IA correttamente sviluppata, puoi eseguire l'etichettatura automaticamente, molto più velocemente e in modo più neutro rispetto all'etichettatura manuale."
Ma il modello MIT ha ancora alcune limitazioni. Per uno, la loro ricerca si è concentrata sui dati provenienti da due fonti alla volta, ma nel mondo reale gli esseri umani incontrano molti tipi di informazioni contemporaneamente, ha detto Liu
"E sappiamo che 1.000 parole funzionano su questo tipo di set di dati, ma non sappiamo se può essere generalizzato a un problema del mondo reale", ha aggiunto Liu.
I ricercatori del MIT affermano che la loro nuova tecnica supera molti modelli simili. Se l'intelligenza artificiale può essere addestrata per comprendere i video, alla fine potresti essere in grado di s altare la visione dei video delle vacanze dei tuoi amici e ottenere invece un rapporto generato dal computer.