OpenAI ammette che è impossibile addestrare l'intelligenza artificiale generativa senza materiali protetti da copyright

OpenAI e il suo più grande sostenitore, Microsoft, stanno affrontando diverse cause legali che li accusano di utilizzare opere protette da copyright di altre persone senza permesso per addestrare i primi modelli linguistici (LLM). E sulla base di ciò che OpenAI ha dichiarato alla House of Lords Communications and Digital Select Committee, in futuro potremmo vedere più azioni legali contro le società. Sarebbe “impossibile addestrare i principali modelli di intelligenza artificiale di oggi senza utilizzare materiali protetti da copyright”, ha scritto OpenAI nel suo documento prove scritte (PDF) presentazione per l’indagine della commissione sugli LLM, come riportato per la prima volta dal Il guardiano.

L’azienda ha spiegato che ciò è dovuto al fatto che oggi il copyright “copre praticamente ogni tipo di espressione umana, inclusi post di blog, fotografie, post di forum, frammenti di codice software e documenti governativi”. Ha aggiunto che “[l]imitare i dati di addestramento su libri e disegni di pubblico dominio creati più di un secolo fa potrebbe produrre un esperimento interessante, ma non fornirebbe sistemi di intelligenza artificiale in grado di soddisfare le esigenze dei cittadini di oggi.” OpenAI ha inoltre insistito sul fatto di rispettare le leggi sul copyright quando addestra i suoi modelli . In un nuovo messaggio sul suo blog realizzato in risposta alla La causa del New York Timesha affermato che l’uso di materiali Internet disponibili al pubblico per addestrare l’intelligenza artificiale rientra nella dottrina del fair use.

Ha ammesso, tuttavia, che c’è “ancora del lavoro da fare per sostenere e dare potere ai creatori”. L’azienda ha parlato dei modi in cui consente agli editori di impedire al web crawler GPTBot di accedere ai loro siti web. Ha inoltre affermato che sta sviluppando ulteriori meccanismi che consentano ai titolari dei diritti di rinunciare alla formazione e che si sta impegnando con loro per trovare accordi reciprocamente vantaggiosi.

In alcune delle cause intentate contro OpenAI e Microsoft, i querelanti accusare le aziende di rifiutarsi di pagare gli autori per il loro lavoro mentre costruivano un’industria da miliardi di dollari e godevano di enormi guadagni finanziari da materiali protetti da copyright. Il caso più recente presentato da una coppia di autori di saggistica ha sostenuto che le società avrebbero potuto esplorare opzioni di finanziamento alternative, come la partecipazione agli utili, ma hanno invece “deciso di rubare”.

OpenAI non ha affrontato quelle particolari cause legali, ma ha fornito una risposta diretta Il New York Times’ denuncia che lo accusa di utilizzare gli articoli di notizie pubblicati senza autorizzazione. La pubblicazione non racconta la storia completa, ha detto. Stava già negoziando con I tempi riguardo a una “partnership di alto valore” che gli darebbe accesso ai resoconti della pubblicazione. Apparentemente le due parti erano ancora in contatto fino al 19 dicembre e OpenAI è venuta a conoscenza della causa solo a dicembre leggendone su I tempi.

Nella denuncia presentata dal giornale, si citavano casi in cui ChatGPT forniva agli utenti “estratti quasi letterali” di articoli protetti da paywall. OpenAI ha accusato la pubblicazione di manipolare intenzionalmente i prompt, come includere lunghi estratti di articoli nella sua interazione con il chatbot per indurlo a rigurgitare contenuti. È anche accusatorio I tempi di esempi di cherry picking da molti tentativi. OpenAI ha affermato la causa intentata da I tempi non ha alcun merito, ma spera comunque in una “partnership costruttiva” con la testata.