Google Gemini 1.5 può utilizzare interi film come input di dati

Negli ultimi mesi Google ha aggiornato rapidamente la sua Gemini AI, precedentemente nota come Google Bard. Oggi, l’azienda ha rivelato un modello Gemini 1.5 aggiornato attualmente in fase di test, con la capacità di elaborare più informazioni contemporaneamente e utilizzare video come input.

Google ha rivelato Gemini 1.5, una versione aggiornata del modello che attualmente alimenta il Chatbot Gemelli e altre funzionalità e servizi IA. Al momento è disponibile solo in anteprima per sviluppatori di software e clienti aziendali, ma presumibilmente verrà esteso al chatbot Gemini nel prossimo futuro.

I principali miglioramenti

Il principale miglioramento promesso è una “finestra di contesto del token” significativamente più grande: i dati che possono essere inseriti come informazioni nel prompt dell’IA. Gemini 1.5 Pro ha una finestra di contesto standard di 128.000 token, un salto significativo rispetto al limite di 32.000 token di Gemini 1.0. Google consente a un gruppo limitato di sviluppatori e aziende di utilizzare finestre di contesto fino a 1 milione di token, sufficienti per un’ora di video, 11 ore di audio o oltre 700.000 parole. Google ha affermato di aver testato con successo anche un limite di 10 milioni di token.

Google ha detto in un post sul blog: “[Gemini] 1.5 Pro può eseguire attività di comprensione e ragionamento altamente sofisticate per diverse modalità, inclusi i video. Ad esempio, quando viene visto un film muto di Buster Keaton di 44 minuti, il modello può analizzare accuratamente vari punti ed eventi della trama e persino ragionare su piccoli dettagli del film che potrebbero facilmente sfuggire.

Aggiornamento

Il modello Gemini aggiornato è presumibilmente migliore anche nelle “attività di comprensione e ragionamento”, superando il precedente modello 1.0 Pro nell’87% dei benchmark utilizzati da Google per testare modelli linguistici di grandi dimensioni. Ciò lascia ancora spazio all’intelligenza artificiale di Gemini per creare dati errati, come ogni altra soluzione di intelligenza artificiale generativa, quindi rimane una soluzione imperfetta per l’analisi dei dati e dei fatti.

Google non ha confermato quando il normale chatbot Gemini e gli altri servizi Google verranno aggiornati per utilizzare Gemini 1.5, ma la società ha affermato che “sono all’orizzonte anche miglioramenti significativi in termini di velocità”, quindi Google potrebbe aspettare questo prima di lanciarlo. a tutti gli utenti. Il nuovo modello è disponibile in anteprima per sviluppatori e clienti aziendali che utilizzano AI Studio e Vertex AI.