Il nuovo modello Imagen 2 di Google può generare video

Non è passato molto tempo da quando OpenAI ha mostrato Sora, che ha impressionato e spaventato molte persone con la sua capacità di creare videoclip (in qualche modo) realistici con istruzioni di testo.

La generazione di immagini tramite intelligenza artificiale è stata perfezionata molto negli ultimi mesi, quindi come ci si potrebbe aspettare, il prossimo passo naturale è il video. Google sta anche lanciando i propri metodi di generazione video, con nuovi modelli di intelligenza artificiale sotto l’egida di Imagen 2 che promettono grandi cose.

Imagen 2

Google ha introdotto Imagen 2, una famiglia di modelli all’interno della sua piattaforma Vertex AI. Google è stata criticata per questo modello di generazione di immagini all’interno di Gemini essere un po’ un incendio nel cassonetto. È stato rimosso e, sebbene Gemini non includa Imagen 2 (almeno non immediatamente), viene fornito con una serie di miglioramenti che lo rendono complessivamente migliore per la generazione di immagini o persino video.

I miglioramenti a Imagen 2 includono funzionalità di inpainting e outpainting, che consentono la manipolazione delle immagini come la rimozione di elementi indesiderati o l’aggiunta di nuovi componenti. L’aggiornamento più significativo, tuttavia, è l’introduzione delle “immagini text-to-live”, che consentono la creazione di brevi video da input di testo.

Limiti nella risoluzione

Tuttavia, dovresti tenere presente che non è come Sora. Rispetto agli strumenti di generazione video esistenti, le capacità di Imagen 2 potrebbero non essere all’altezza in termini di risoluzione e opzioni di personalizzazione. Dovremo vedere come si comporterà nell’uso reale. È anche un po’ tecnico, ma questo genera “immagini dal vivo”, che sono brevi clip di 4 secondi. È ancora un inizio, tuttavia, e potrebbe servire come base per un vero modello da testo a video entro i prossimi mesi o anni.

Lotta ai DeepFake

Per rispondere alle preoccupazioni relative ai deepfake, Google incorpora la tecnologia SynthID per applicare filigrane crittografiche alle immagini live, mirando all’autenticità e alla sicurezza. Nonostante l’enfasi di Google sulle misure di sicurezza, permangono dubbi sull’efficacia del suo approccio e sulla trasparenza per quanto riguarda le fonti di dati sulla formazione. L’assenza, per esempio, di un meccanismo di opt-out per i creatori il cui lavoro potrebbe essere incluso nei dati di addestramento potrebbe far sollevare le sopracciglia ad alcuni. Inoltre, la politica di indennizzo dell’intelligenza artificiale generativa di Google non copre le immagini text-to-live, lasciando i clienti vulnerabili a potenziali reclami sul copyright.

Dovremo aspettare e vedere se Google lo renderà pubblicamente accessibile in qualche modo. Potremmo sentirne di più una volta che Google I/O sarà disponibile.