Come individuare i video generati dall'intelligenza artificiale?

Con l’arrivo del modello text-to-video SORA di OpenAI, guardiamo a un futuro inevitabile pieno di video generati dall’intelligenza artificiale. Ma la tecnologia non è stata ancora perfezionata, quindi ecco alcuni suggerimenti per individuare i video generati dall’intelligenza artificiale (almeno per ora).

Individuare i contenuti generati dall’intelligenza artificiale può essere una sfida

A prima vista, verresti perdonato per aver fatto passare i video generati dall’intelligenza artificiale come un vero affare. È solo quando inizi a guardare un po’ più in profondità che potresti iniziare a notare che qualcosa non va.

Tutti gli esempi di cui parleremo in questo articolo riguardano OpenAI Modello da testo a video SORA, annunciato nel febbraio 2024. È di gran lunga il modello più avanzato nel suo genere, convertendo i suggerimenti di testo in immagini in movimento. Le cose hanno fatto molta strada dai famigerati Will Smith mangia gli spaghetti Il post di Reddit è emerso all’inizio del 2023. Al momento in cui scrivo, nel marzo 2024, SORA è ancora in fase di test chiuso.

Individuare foto e video generati dall’intelligenza artificiale è più un’arte che una scienza esatta. Ci sono modi per sapere se una foto è stata generata dall’intelligenza artificialema non funzionano in modo coerente. Gli strumenti progettati per rilevare i contenuti dell’intelligenza artificiale sono spesso inaffidabilianche quando si tratta di testo.

Lo scopo qui è quello di evidenziare alcuni dei modi in cui puoi scegliere i contenuti generati dall’intelligenza artificiale, almeno per ora. Ricorda che i modelli sono in continua evoluzione, quindi questi tratti diventeranno più difficili da individuare. A volte la scelta del soggetto e del contesto del video può fare la differenza.

Attenzione ai cambiamenti sottili e ai “fantasmi”

Cercare sottili cambiamenti è un modo per individuare un’IA falsa convincente, ma non è esattamente facile. Un esempio di SORA di OpenAI raffigurava una donna che camminava lungo un le strade di Tokyo illuminate dai neon. La scena è impressionante per uno strumento di conversione testo in video, così impressionante che potresti aver perso il cambio di guardaroba verso la fine del filmato.

L’abbigliamento della donna nella scena iniziale mostra un abito rosso con un cardigan lungo e una giacca di pelle. Il cardigan è un po’ strano nel modo in cui sembra fondersi con la giacca, ma non sono esattamente Mr Fashion quindi ci provo:

OpenAI Ora dai un’occhiata agli stessi vestiti in primo piano e vedrai che il vestito ora ha delle macchie scure e che la giacca di pelle ha un risvolto decentrato molto più grande:

OpenAI Questo è così sottile che la maggior parte delle persone avrebbe bisogno di guardare il filmato più volte per individuarlo. La scena è densa, piena di riflessioni e di attori in sottofondo che aiutano a distrarti dalla gaffe.

Qualcos’altro a cui prestare attenzione sono i fantasmi o gli oggetti che entrano ed escono gradualmente dall’esistenza. Il video di OpenAI di a Città californiana della corsa all’oro ne fornisce un buon esempio. Dai un’occhiata a questa figura dall’aspetto piuttosto nebuloso, che il tuo cervello probabilmente interpreta come un uomo con un cavallo:

OpenAI Due secondi dopo, la figura è scomparsa del tutto. Se guardi il video, vedrai questa figura confondersi nella terra come se fosse un fantasma:

OpenAI

L’intelligenza artificiale lotta con dita, occhiali ed elementi più fini

Uno dei maggiori problemi per i modelli generati dall’intelligenza artificiale sono le estremità e le linee sottili. In particolare, osserva attentamente le mani, gli oggetti tenuti in mano, gli occhiali e il modo in cui le cose interagiscono con le caratteristiche umane (come cappelli, elmetti o persino capelli).

Il video può rendere questo tipo di errore più facile da individuare rispetto alla fotografia generata dall’intelligenza artificiale perché queste caratteristiche possono cambiare da una scena all’altra.

Il posizionamento delle dita e delle mani è particolarmente difficile da realizzare per l’intelligenza artificiale. I modelli generativi hanno la tendenza a produrre mani con più o meno dita di quanto ci si aspetterebbe. A volte le cose non sembrano del tutto giuste, le dita sono molto sottili o ci sono troppe nocche. Gli oggetti tenuti mostrano la stessa stranezza, a volte apparendo come se l’essere umano nell’inquadratura avesse assorbito qualunque cosa stessero trattenendo.

Cerca occhiali che non sembrino simmetrici o che si fondano sui volti. In un video, possono anche apparire e scomparire gradualmente e cambiare da una scena all’altra. Lo stesso vale per braccia e gambe, basta dare un’occhiata a questo video di SORA persone a Lagos, Nigeria:

Osserva da vicino gli oggetti sullo sfondo di un’immagine

I dettagli dello sfondo sono spesso un indizio assoluto quando si tratta di video generati dall’intelligenza artificiale, ancor più delle foto. Un buon falso dipende dal fatto che il soggetto sia abbastanza convincente da distrarti dal fatto che lo sfondo non si comporta come dovrebbe.

Dai un’altra occhiata al video della scena notturna di Tokyo. Questa scena è così densa che è facile prendere tutto per oro colato, ma guarda attentamente le persone che camminano sullo sfondo, in particolare quelle a sinistra del soggetto:

OpenAI Alcuni di questi movimenti semplicemente non sembrano giusti. Ad un certo punto, una persona sembra duplicarsi. Successivamente, quello che sembra essere un gruppo di persone sembra trasformarsi in un unico oggetto, come se indossassero tutti la stessa gonna o lo stesso soprabito. In alcune aree, anche le animazioni della camminata sono strane.

Tieni d’occhio le attività sospette in background per individuare i video generati dall’intelligenza artificiale. A volte noterai oggetti naturali come alberi, campi o foreste che interagiscono in modi strani. Le prospettive possono sembrare fuori luogo, a volte gli oggetti in movimento non sono del tutto in linea con il percorso rappresentato nell’animazione.

Illuminazione e “Aura AI”

Questo è qualcosa che abbiamo visto spesso nelle foto generate dall’intelligenza artificiale, ed è probabilmente più una “sensazione” che un tratto oggettivamente identificabile. Se l’illuminazione sembra particolarmente piatta e innaturale nei casi in cui ti aspetteresti una maggiore variazione, ciò può segnalare che potrebbe non essere reale.

Ad esempio, la mancanza di imperfezioni della fotocamera come l’effetto Blooming, lo scoppio delle alte luci (dove le alte luci vengono perse a causa di troppa luce che entra nell’obiettivo) o il roll-off delle ombre (dove i dettagli delle ombre vengono persi a causa dell’assenza di luce) semplicemente non sono presente.

Tutto può somigliare un po’ a un video musicale di alta produzione o ai videogiochi dei giorni precedenti illuminazione realistica e raytracing. I soggetti potrebbero apparire perfettamente illuminati nei casi in cui ti aspetteresti che non lo siano.

L’effetto Uncanny Valley

L’effetto misteriosa valle è un termine usato per descrivere la mescolanza di tratti umani e disumani in un modo che mette a disagio lo spettatore. Gli androidi o i robot simili agli umani sono esempi spesso citati poiché danno l’apparenza esteriore di esseri umani ma allo stesso tempo sono inevitabilmente disumani.

Nella maggior parte dei casi l’effetto della valle misteriosa si riduce semplicemente a una sensazione. Puoi percepire che qualcosa non va bene, ma non riesci a individuare esattamente di cosa si tratta. Questo effetto spesso si manifesta nelle foto e nei video generati dall’intelligenza artificiale e un’area in cui l’ho sperimentato è in SORA video dell’astronauta.

Ignorando per un secondo che l’astronauta in questione indossa un casco spaziale lavorato a maglia, c’è qualcosa in questo viso che mi fa venire i brividi lungo la schiena:

OpenAI E c’è una cosa simile nonna macabra non riuscire a spegnere le candeline del suo compleanno, il che sembra molto peggio in movimento:

Attenzione alle sciocchezze

Questa sembra la bandiera rossa più semplice da individuare, ma a volte il tuo cervello dà semplicemente un passaggio. Il suddetto video dell’astronauta ne è un buon esempio. C’è una breve scena di una porta, o una maniglia, o una leva, o qualcosa semplicemente non ha senso:

OpenAI Cos’è questa cosa? Perché l’animazione sembra essere riprodotta al contrario? Il casco in maglia lo posso scusare, ma questa cosa mi ha lasciato perplesso dal momento in cui l’ho visto.

Lo stesso vale per i movimenti. La SORA Video del gatto a letto è impressionante, ma il movimento non è giusto. I proprietari di gatti riconosceranno che il comportamento è strano e innaturale. Sembra che ci sia una discrepanza tra il comportamento del soggetto e il contesto della situazione. Col tempo, questo migliorerà.

Il testo confuso è un altro buon esempio di ciò che i processi generativi dell’IA spesso sbagliano. I personaggi giapponesi nel video della scena notturna di Tokyo di SORA sono un miscuglio, così come lo sono alcune segnaletiche stradali e dei negozi. Scegliere una scena in cui la maggior parte delle persone non è in grado di distinguere il giapponese da un brutto tributo è stata una scelta intelligente da parte di OpenAI.

Allenati a individuare meglio questo contenuto

Il modo migliore per allenarti a individuare i contenuti generati dall’intelligenza artificiale è studiarli tu stesso. La maggior parte dei modelli generativi ha comunità attive sia sul web che su piattaforme di social media come Reddit. Trovane alcuni e dai un’occhiata a ciò che le persone stanno inventando.

Inoltre, potresti genera le tue immagini utilizzando uno strumento come Stable Diffusion. Al momento in cui scrivo, SORA di OpenAI non è disponibile per l’uso pubblico, quindi dovrai aspettare prima di tuffarti tu stesso.

I video generati dall’intelligenza artificiale sono impressionanti, affascinanti e terrificanti in egual misura. Nel corso del tempo, questi suggerimenti diventeranno probabilmente meno rilevanti man mano che i modelli supereranno i loro punti deboli. Quindi allacciate le cinture, perché non avete ancora visto nulla.