OpenAI vuole collaborare con le organizzazioni per creare nuovi set di dati di addestramento sull'intelligenza artificiale

OpenAI sta lanciando un nuovo programma di partnership per raccogliere set di dati da terze parti che intende utilizzare per addestrare i suoi modelli di intelligenza artificiale. L’iniziativa, OpenAI Data Partnerships, cercherà informazioni private e pubbliche su larga scala che, a suo dire, “non sono già facilmente accessibili online al pubblico”. L’azienda afferma che i dati che raccoglierà non dovranno necessariamente essere quantitativi o in formato testo: il programma accetterà anche immagini, audio o video.

In particolare, l’azienda afferma di essere alla ricerca di dati su “qualsiasi argomento” e in “qualsiasi lingua” purché “esprimi intenzioni umane”, che paragona a saggi di lunga durata o conversazioni trascritte. Si prevede che i dati incentrati sull’uomo raccolti da OpenAI aiuteranno l’azienda a migliorare strumenti come il suo automatico tecnologia di riconoscimento vocale che viene utilizzato per trascrivere le parole pronunciate. Questa iniziativa è in linea anche con la recente espansione del supporto di ChatGPT domande vocali interagire con gli utenti in modo conversazionale. Esporre i suoi modelli di intelligenza artificiale a più informazioni che gli insegnano come resistere conversazioni di tipo umano non farà altro che migliorare ulteriormente questa funzionalità e altri strumenti che seguiranno in funzione.

I test del modello condotti durante il programma di partnership sui dati amplieranno naturalmente anche le capacità di OpenAI rivolte ai consumatori GPT-4 Turbo, che è stato aggiornato per fornire agli utenti risposte più complesse e significative. OpenAI afferma di aver già iniziato a lavorare con le organizzazioni interessate, inclusi organismi autorevoli come il governo islandese. Attraverso set di dati curati, OpenAI afferma di lavorare per migliorare la capacità di GPT-4 di comprendere le query effettuate in lingua islandese.

Se un’organizzazione privata o pubblica desidera partecipare al programma, può presentarsi un rappresentante un modulo sul sito web dell’azienda e condividere informazioni sulla tipologia e dimensione dei dati che intendono condividere. Esistono due percorsi per i set di dati. Il primo è l’archivio Open Source, ideale per i set di dati rilevanti per l’addestramento dei modelli linguistici. Tuttavia, i contributi inviati saranno pubblici e chiunque potrà utilizzarli. In alternativa, OpenAI afferma che un’azienda può inviare informazioni attraverso il proprio percorso di set di dati privati che verranno incanalati per addestrare modelli di intelligenza artificiale proprietari, che secondo la società includono i loro “modelli di base” e “modelli ottimizzati e personalizzati”. Questo è consigliato per aziende o istituzioni che desiderano mantenere riservati i propri dati. Ma a questo stesso proposito, OpenAI afferma che non sta cercando set di dati che contengano informazioni sensibili o personali.

ChatGPT ha già stabilito record per la sua crescente base di utenti. Ne ha circa 100 milioni di utenti attivi settimanali in tutto il mondo, intendo privacy continuerà a essere solo un punto focale per lo strumento. In precedenza, i dipendenti Samsung venivano messi al centro dell’attenzione perdita di dati sensibili al modello di intelligenza artificiale. Mentre Affermazioni di OpenAI non utilizza i dati generati dalla sua API per addestrare i suoi modelli a meno che un utente non invii esplicitamente informazioni tramite un modulo di adesione, tutti gli occhi saranno puntati su come l’azienda gestisce i dati raccolti attraverso questa iniziativa, in particolare i set di dati privati.