Lunedì OpenAI ha annunciato GPT-4o, un nuovissimo modello di intelligenza artificiale che, secondo l’azienda, è un passo avanti verso “un’interazione uomo-computer molto più naturale“. Il nuovo modello accetta qualsiasi combinazione di testo, audio e immagini come input e può generare un output in tutti e tre i formati. È anche in grado di riconoscere le emozioni, ti consente di interromperle nel bel mezzo di un discorso e risponde quasi con la stessa velocità di un essere umano durante le conversazioni.
“La particolarità di GPT-4o è che offre intelligenza di livello GPT-4 a tutti, compresi i nostri utenti gratuiti”, ha affermato Mira Murati, CTO di OpenAI, durante una presentazione in live streaming. “Questa è la prima volta che facciamo un enorme passo avanti in termini di facilità d’uso.“
La presentazione
Durante la presentazione, OpenAI ha mostrato GPT-4o traducendo dal vivo tra inglese e italiano, aiutando un ricercatore a risolvere un’equazione lineare in tempo reale su carta e fornendo indicazioni sulla respirazione profonda a un altro dirigente di OpenAI semplicemente ascoltando i suoi respiri.
La “o” in GPT-4o sta per “omni”, un riferimento alle capacità multimodali del modello. OpenAI ha affermato che GPT-4o è stato addestrato su testo, visione e audio, il che significa che tutti gli input e gli output vengono elaborati dalla stessa rete neurale. Questo è diverso dai modelli precedenti dell’azienda, GPT-3.5 e GPT-4, che consentivano agli utenti di porre domande semplicemente parlando, ma poi trascrivendo il discorso in testo. Ciò ha eliminato tono ed emozioni e ha reso le interazioni più lente.
OpenAI renderà il nuovo modello disponibile a tutti, compresi gli utenti ChatGPT gratuiti, nelle prossime settimane e rilascerà anche una versione desktop di ChatGPT, inizialmente per Mac, a cui gli utenti a pagamento avranno accesso a partire da oggi.
L’annuncio di OpenAI arriva un giorno prima di Google I/O, la conferenza annuale degli sviluppatori dell’azienda.