Secondo il New York Times, OpenAI e Google hanno utilizzato trascrizioni di video di YouTube per addestrare i modelli di AI

OpenAI e Google hanno addestrato i loro modelli di intelligenza artificiale sul testo trascritto dai video di YouTube, violando potenzialmente i diritti d’autore dei creatori, secondo Il New York Times. Il rapporto, che descrive gli sforzi compiuti da OpenAI, Google e Meta per massimizzare la quantità di dati che possono fornire alle loro IA, cita numerose persone con conoscenza delle pratiche delle aziende.

Ciò arriva pochi giorni dopo che il CEO di YouTube Neal Mohan ha dichiarato in un’intervista a Originali Bloomberg che il presunto utilizzo di video di YouTube da parte di OpenAI per addestrare il suo nuovo generatore di testo in video, Sora, andrebbe contro le politiche della piattaforma.

Le indiscrezioni

Secondo il NYT OpenAI ha utilizzato il suo strumento di riconoscimento vocale Whisper per trascrivere più di un milione di ore di video di YouTube, che sono stati poi utilizzati per addestrare GPT-4. L’informazione in precedenza avevano riferito che OpenAI aveva utilizzato video e podcast di YouTube per addestrare i due sistemi di intelligenza artificiale.

Secondo quanto riferito, il presidente di OpenAI Greg Brockman era tra le persone di questa squadra. Secondo le regole di Google, “scraping o download non autorizzato di contenuti di YouTube” non è consentito, ha detto Matt Bryant, portavoce di Google. NYT affermando inoltre che la società non era a conoscenza di tale utilizzo da parte di OpenAI.

Il rapporto

Il rapporto, tuttavia, afferma che c’erano persone in Google che sapevano ma non hanno preso provvedimenti contro OpenAI perché Google utilizzava video di YouTube per addestrare i propri modelli di intelligenza artificiale. Google ha detto NYT lo fa solo con i video dei creatori che hanno accettato di prendere parte a un programma sperimentale.

IL NYT Il rapporto afferma inoltre che Google ha modificato la sua politica sulla privacy nel giugno 2022 per coprire in modo più ampio l’uso di contenuti disponibili al pubblico, inclusi Google Documenti e Fogli Google, per addestrare i suoi modelli e prodotti di intelligenza artificiale. Bryant ha detto NYT che ciò avviene solo con il permesso degli utenti che accettano le funzionalità sperimentali di Google e che la società “non ha avviato la formazione su ulteriori tipi di dati in base a questo cambio di lingua”.