Microsoft Research Asia ha svelato un nuovo esperimento di intelligenza artificiale chiamato VASA-1 che può acquisire un’immagine fissa di una persona – o il disegno di una persona – e un file audio esistente per crearne un volto parlante realistico in tempo reale.
Ha la capacità di generare espressioni facciali e movimenti della testa per un’immagine fissa esistente e movimenti delle labbra appropriati per abbinare un discorso o una canzone. I ricercatori hanno caricato un sacco di esempi sulla pagina del progetto e i risultati sembrano abbastanza buoni da poter ingannare le persone facendole credere che siano reali.
Capacità sorprendenti, ma attenzione ai pericoli
Anche se i movimenti delle labbra e della testa negli esempi potrebbero sembrare un po’ robotici e fuori sincrono a un esame più attento, è comunque chiaro che la tecnologia potrebbe essere utilizzata in modo improprio per creare facilmente e rapidamente video deepfake di persone reali.
I ricercatori stessi sono consapevoli di questo potenziale e hanno deciso di non rilasciare “una demo online, un’API, un prodotto, ulteriori dettagli di implementazione o qualsiasi offerta correlata” finché non saranno sicuri che la loro tecnologia “sarà utilizzata in modo responsabile e in conformità con le corrette procedure“. regolamenti.” Non hanno, tuttavia, dichiarato se intendono implementare determinate misure di salvaguardia per evitare che malintenzionati li utilizzino per scopi nefasti, come creare deepfake porno o campagne di disinformazione.
I vantaggi offerti secondo i ricercatori
I ricercatori ritengono che la loro tecnologia offra moltissimi vantaggi nonostante il suo potenziale uso improprio. Hanno affermato che può essere utilizzato per migliorare l’equità educativa, nonché per migliorare l’accessibilità per coloro che hanno difficoltà di comunicazione, magari dando loro accesso a un avatar in grado di comunicare per loro.
Può anche fornire compagnia e supporto terapeutico a coloro che ne hanno bisogno, hanno detto, insinuando che VASA-1 potrebbe essere utilizzato in programmi che offrono accesso a personaggi IA con cui le persone possono parlare.
Anche se lo strumento è stato addestrato su volti reali, funziona anche su foto artistiche come la Monna Lisa, che i ricercatori hanno combinato in modo divertente con un file audio della versione virale di Anne Hathaway di Lil Wayne di Paparazzi.