Scopriamo OpenAI Sora. Davvero cambierà i video per sempre?

La velocità dello sviluppo dell’intelligenza artificiale si sta dirigendo verso un punto oltre la comprensione umana, e il sistema di conversione testo-video Sora di OpenAI è solo l’ultima tecnologia di intelligenza artificiale a scioccare il mondo facendogli realizzare che le cose stanno accadendo prima di quanto ci si aspettasse.

Cos’è OpenAI Sora?

Come altri strumenti di intelligenza artificiale generativa come DALL-E e Metà Viaggio, Sora prende i tuoi suggerimenti di testo e li converte in un mezzo visivo. Tuttavia, a differenza dei generatori di immagini AI sopra menzionati, Sora crea un video clip completo di movimento, diversi angoli di ripresa, direzione e tutto ciò che ti aspetteresti da un video prodotto tradizionalmente.

Guardando gli esempi su Sito web di Sora, i risultati sono il più delle volte indistinguibili dai video reali e prodotti professionalmente. Tutto, dalle riprese di droni di fascia alta alle produzioni cinematografiche multimilionarie. Completo di attori generati dall’intelligenza artificiale, effetti speciali e opere.

Sora ovviamente non è la prima tecnologia a farlo. Fino ad ora, il leader più visibile in questo settore è stato PistaML, che offrono i loro servizi al pubblico a pagamento. Tuttavia, anche nelle migliori circostanze, i video di Runway sono più simili a quelli prime generazioni di immagini fisse di MidJourney. Non c’è stabilità nell’immagine, la fisica non ha senso e mentre scrivo questo, la durata massima della clip è di 16 secondi.

Al contrario, il miglior risultato che Sora deve mostrare è perfettamente stabile, con la fisica che sembra corretta (almeno per il nostro cervello) e le clip possono durare fino a un minuto. Le clip sono completamente prive di audio, ma esistono già altri sistemi di intelligenza artificiale in grado di generare musica, effetti sonori e parlato. Quindi non ho dubbi che questi strumenti potrebbero essere integrati in un flusso di lavoro Sora, o nel peggiore dei casi in un tradizionale lavoro di voiceover e foley.

Grandi passi in avanti

Non si può sopravvalutare l’enorme balzo in avanti rappresentato da Sora rispetto alle riprese video da incubo dell’intelligenza artificiale di appena un anno prima della demo di Sora. Come quello piuttosto inquietante AI Will Smith mangia gli spaghetti. Penso che questo sia uno shock ancora più grande per il sistema rispetto a quando i generatori di immagini AI sono passati dall’essere uno scherzo a dare agli artisti visivi terrore esistenziale.

È probabile che Sora abbia un impatto sull’intero settore video, dai produttori di filmati stock realizzati da una sola persona fino al livello dei progetti Disney e Marvel a mega budget. Niente rimarrà intatto da questo. Penso che questo sia particolarmente vero dal momento che Sora non deve creare cose dal nulla, ma può lavorare su materiale esistente, come animare un’immagine fissa che hai fornito. Questo potrebbe essere il vero inizio della industria cinematografica sintetica.

Come funziona Sora?

Andremo un po’ sotto il cofano di Sora il più lontano possibile, ma non è possibile entrare così tanto nei dettagli. Innanzitutto perché, ironicamente, OpenAI non è aperta riguardo al funzionamento interno della sua tecnologia. È tutto proprietario e quindi la salsa segreta che distingue Sora dalla concorrenza ci è sconosciuta nei suoi dettagli precisi. In secondo luogo, io non sono un informatico, probabilmente non sei un informatico, quindi possiamo capire come funziona questa tecnologia solo in termini generali.

La buona notizia è che c’è un eccellente spiegatore di Sora (a pagamento). Mike Giovane su Medio, basato su a relazione tecnica di OpenAI che è crollato perché noi semplici mortali potessimo comprenderlo. Anche se vale la pena leggere entrambi i documenti, qui possiamo estrarre i fatti più importanti.

Sora si basa sulle lezioni che aziende come OpenAI hanno imparato creando tecnologie come ChatGPT o DALL-E. Sora innova il modo in cui viene addestrato sui video di esempio suddividendo tali video in “patch” analoghe ai “token” utilizzati dal modello di addestramento di ChatGPT. Poiché questi token hanno tutti le stesse dimensioni, cose come la lunghezza della clip, le proporzioni e la dimensione della risoluzione non hanno importanza per Sora.

Sora usa la stessa ampiezza trasformatore approccio che alimenta GPT insieme al metodo di diffusione utilizzato dai generatori di immagini AI. Durante l’addestramento, esamina i token di patch rumorosi parzialmente diffusi da un video e cerca di prevedere come sarebbe il token pulito e privo di rumore. Confrontandolo con la verità, il modello impara il “linguaggio” del video. Ecco perché gli esempi del sito web di Sora sembrano così autentici.

Oltre a questa notevole capacità, Sora include anche didascalie altamente dettagliate per i fotogrammi video su cui è addestrato, motivo per cui è in grado di modificare i video che genera in base a istruzioni di testo.

La capacità di Sora di simulare accuratamente la fisica nei video sembra essere una caratteristica emergente, che deriva semplicemente dall’addestramento su milioni di video che contengono movimenti basati sulla fisica del mondo reale. Sora ha un’eccellente permanenza degli oggetti, anche quando gli oggetti escono dall’inquadratura o sono occlusi da qualcos’altro nell’inquadratura, rimangono presenti e ritornano indisturbati.

Tuttavia, a volte si verificano ancora problemi quando le cose nel video interagiscono, con la causalità e con la generazione spontanea di oggetti. Inoltre, in modo piuttosto divertente, Sora sembra confondere la sinistra con la destra di tanto in tanto. Ciò nonostante, quanto mostrato finora non solo è già utilizzabile, ma è assolutamente allo stato dell’arte.

Quando riceverai Sora?

Quindi siamo tutti estremamente entusiasti di poter toccare con mano Sora, e puoi scommettere il tuo ultimo dollaro che ci giocherò e scriverò esattamente quanto è buona questa tecnologia quando non ci vengono mostrati risultati selezionati con cura, ma dopo quanto tempo può succedere?

Al momento della stesura di questo articolo, non è chiaro esattamente quanto tempo passerà prima che Sora sia disponibile al grande pubblico o quanto costerà. OpenAI ha dichiarato che la tecnologia è nelle mani della “squadra rossa”, ovvero il gruppo di persone il cui compito è provare a far fare a Sora tutte le cose cattive che non dovrebbe fare, e quindi aiutare a mettere le barriere contro questo tipo di cose che succedono quando i clienti reali riescono a usarlo. Ciò include il potenziale di creare disinformazione, di produrre materiale dispregiativo o offensivo e molti altri abusi che si potrebbero immaginare.

Inoltre, al momento della stesura di questo articolo, è nelle mani di creatori selezionati, cosa che sospetto sia a scopo di test, sia per ottenere recensioni e approvazioni di terze parti mentre ci avviciniamo alla sua versione finale.

La verità è che non sappiamo quando sarà disponibile, così come DALL-E 3 può essere utilizzato anche solo a pagamento, e in realtà anche OpenAI non ha ancora una data certa. Questo semplicemente perché se è nelle mani dei tester della sicurezza, potrebbero scoprire problemi che richiedono più tempo del previsto per essere risolti, il che respingerà una versione pubblica.

Il fatto che OpenAI si senta pronta a mettere in mostra Sora e persino a ricevere alcuni suggerimenti pubblici curati tramite X (ex Twitter) significa semplicemente che l’azienda pensa che la qualità del prodotto finale sia praticamente pronta, ma finché non ci sarà un quadro migliore dell’opinione pubblica , i problemi di sicurezza sollevati e anche i problemi di sicurezza scoperti, nessuno può dirlo con certezza. Penso che stiamo parlando di mesi anziché di anni, ma non aspettartelo la prossima settimana.