I ricercatori hanno trovato materiale pedopornografico nel più grande set di dati sulla generazione di immagini AI

Di Alessio Perini 5 minuti di lettura
i-ricercatori-hanno-trovato-materiale-pedopornografico-nel-piu-grande-set-di-dati-sulla-generazione-di-immagini-ai
I ricercatori hanno trovato materiale pedopornografico nel più grande set di dati sulla generazione di immagini AI

I ricercatori dello Stanford Internet Observatory affermano che un set di dati utilizzato per addestrare gli strumenti di generazione di immagini di intelligenza artificiale contiene almeno 1.008 casi convalidati di materiale pedopornografico. I ricercatori di Stanford notano che la presenza di materiale pedopornografico nel set di dati potrebbe consentire ai modelli di intelligenza artificiale addestrati sui dati di generare istanze nuove e persino realistiche di materiale pedopornografico.

Lo racconta la LAION, l’organizzazione no-profit che ha realizzato il dataset 404 mezzi che “ha una politica di tolleranza zero per i contenuti illegali e, con molta cautela, stiamo temporaneamente rimuovendo i set di dati LAION per garantire che siano sicuri prima di ripubblicarli”. L’organizzazione ha aggiunto che, prima di pubblicare i propri set di dati, ha creato filtri per rilevare e rimuovere da essi i contenuti illegali. Tuttavia, 404 sottolinea che i dirigenti della LAION sono consapevoli almeno dal 2021 che i loro sistemi potrebbero rilevare materiale pedopornografico mentre aspirano miliardi di immagini da Internet.

Secondo i rapporti precedenti, il set di dati LAION-5B in questione contiene “milioni di immagini di pornografia, violenza, nudità infantile, meme razzisti, simboli di odio, opere d’arte protette da copyright e opere prelevate da siti Web di società private”. Complessivamente comprende più di 5 miliardi di immagini e relative didascalie descrittive. Il fondatore della LAION Christoph Schuhmann ha dichiarato all’inizio di quest’anno che, pur non essendo a conoscenza della presenza di materiale CSAM nel set di dati, non aveva esaminato i dati in modo approfondito.

Per la maggior parte degli istituti negli Stati Uniti è illegale visualizzare materiale pedopornografico a scopo di verifica. Pertanto, i ricercatori di Stanford hanno utilizzato diverse tecniche per cercare potenziali CSAM. Secondo la loro carta, hanno impiegato “rilevamento percettivo basato su hash, rilevamento crittografico basato su hash e analisi dei vicini più vicini sfruttando gli incorporamenti di immagini nel set di dati stesso”. Hanno trovato 3.226 voci che contenevano sospetti materiale pedopornografico. Molte di queste immagini sono state confermate come materiale pedopornografico da terze parti come PhotoDNA e il Centro canadese per la protezione dell’infanzia.

Il fondatore di Stability AI, Emad Mostaque, si è formato Diffusione stabile utilizzando un sottoinsieme di dati LAION-5B. La prima versione di ricerca del modello text-to-image di Google è stata addestrato su LAION-400M, ma non venne mai rilasciato; Google afferma che nessuna delle seguenti iterazioni di Imagen utilizza set di dati LAION. Lo ha detto un portavoce di Stability AI Bloomberg che proibisce l’uso dei suoi sistemi test-to-image per scopi illegali, come la creazione o la modifica di CSAM. “Questo rapporto si concentra sul set di dati LAION-5B nel suo insieme”, ha detto il portavoce. “I modelli di stabilità AI sono stati addestrati su un sottoinsieme filtrato di quel set di dati. Inoltre, abbiamo messo a punto questi modelli per mitigare i comportamenti residui”.

Stable Diffusion 2 (una versione più recente dello strumento di generazione di immagini di Stability AI) è stato addestrato su dati che filtravano sostanzialmente i materiali “non sicuri” dal set di dati. Quello, Bloomberg note, rende più difficile per gli utenti generare immagini esplicite. Tuttavia, si sostiene che Stable Diffusion 1.5, che è ancora disponibile su Internet, non abbia le stesse protezioni. “I modelli basati su Stable Diffusion 1.5 a cui non sono state applicate misure di sicurezza dovrebbero essere deprecati e la distribuzione cessata ove possibile”, hanno scritto gli autori del documento di Stanford.

Correzione, 16:30 ET: Questa storia originariamente affermava che lo strumento Imagen di Google utilizzava un sottoinsieme di dati LAION-5B. La storia è stata aggiornata per notare che Imagen ha utilizzato LAION-400M nella sua prima versione di ricerca, ma da allora non ha più utilizzato alcun dato LAION. Ci scusiamo per l’errore.

Condividi questo articolo
Exit mobile version