Cos’è l’IA multimodale?

I primi modelli di intelligenza artificiale impressionavano per la loro capacità di interpretare le istruzioni testuali, ma l’intelligenza artificiale multimodale è capace di molto di più. Man mano che i modelli esistenti si espandono per accettare più modalità di input, gli strumenti di intelligenza artificiale diventeranno sempre più avanzati.

Cosa significa “multimodale”?

La parola “multimodale” si riferisce letteralmente all’uso di più modalità e, nel contesto dell’intelligenza artificiale, ciò significa l’uso di diverse fonti di input sia per la formazione che per ottenere risultati più informati. I chatbot che hanno preso d’assalto il mondo nel 2023 erano capaci di una sola modalità di input, ovvero il testo.

L’intelligenza artificiale multimodale è in grado di accettare due o più metodi di input. Ciò vale sia durante l’addestramento del modello che durante l’interazione con il modello. Ad esempio, potresti addestrare un modello ad associare determinate immagini a determinati suoni utilizzando set di dati sia di immagini che audio. Allo stesso tempo, potresti chiedere a un modello di combinare una descrizione testuale e un file audio per generare un’immagine che li rappresenti entrambi.

Le potenzialità

Le potenziali modalità di input includono testo, immagini, audio o informazioni provenienti da sensori come temperatura, pressione, profondità e così via. È possibile definire la priorità di queste modalità all’interno del modello, ponderando i risultati in base al risultato previsto.

I modelli multimodali sono un’evoluzione dei modelli unimodali che hanno visto un’esplosione di popolarità nel 2023. I modelli unimodali sono in grado di ricevere un suggerimento solo da un singolo input (come il testo). Un modello multimodale può combinare più input come una descrizione, un’immagine e un file audio per fornire risultati più avanzati.

In che modo l’intelligenza artificiale multimodale è migliore dell’intelligenza artificiale normale?

L’intelligenza artificiale multimodale è l’evoluzione logica degli attuali modelli di intelligenza artificiale che consente modelli più “informati”. Le applicazioni per questi modelli sono molto più ampie, sia in termini di utilizzo da parte dei consumatori, di apprendimento automatico e di implementazione specifica del settore.

Supponiamo che tu voglia creare una nuova immagine basata su una foto che hai scattato. Potresti fornire la foto a un’intelligenza artificiale e descrivere i cambiamenti che volevi vedere. Potresti anche addestrare un modello ad associare i suoni a un particolare tipo di immagine o a tracciare associazioni come la temperatura. Questi tipi di modelli avrebbero risultati “migliori” anche se interagisci con loro solo tramite testo.

Altri esempi includono i sottotitoli dei video che utilizzano sia audio che video per sincronizzare il testo con ciò che accade sullo schermo o una migliore raccolta di informazioni utilizzando grafici e infografiche per rafforzare i risultati. Certo, dovresti sempre mantenere un sano livello di scetticismo quando si conversa con un chatbot.

L’intelligenza artificiale multimodale si sta gradualmente facendo strada nella tecnologia di tutti i giorni

Gli assistenti mobili potrebbero essere notevolmente migliorati con l’uso di modelli multimodali poiché l’assistente avrà più punti dati e contesto aggiunto per formulare ipotesi migliori. Il tuo smartphone è già dotato di fotocamere, microfoni, sensori di luce e profondità, giroscopio e accelerometro, servizi di geolocalizzazione e connessione Internet. Tutto ciò potrebbe essere utile ad un assistente nel giusto contesto.

Le implicazioni per l’industria sono enormi. Immagina di addestrare un modello per eseguire qualche tipo di attività di manutenzione utilizzando diversi input in modo che possa esprimere giudizi migliori. Un componente si surriscalda? Il componente appare usurato? È più rumoroso di quanto dovrebbe essere? Questo può essere combinato con informazioni di base come l’età del componente e la sua durata di vita media, quindi gli input possono essere ponderati per giungere a conclusioni ragionevoli.

Alcuni esempi di IA multimodale

Google Gemelli è forse uno degli esempi più noti di IA multimodale. Il modello non è stato senza polemiche, con un video dimostrativo del modello rilasciato alla fine del 2023 bollato come “falso” dai detrattori. Google ammesso che il video è stato modificato, che i risultati erano basati su immagini fisse e non erano avvenuti in tempo reale e che le istruzioni erano fornite tramite testo anziché pronunciate ad alta voce.

Google Gli sviluppatori possono già iniziare a utilizzare Gemini oggi semplicemente richiedere una chiave API in Google AI Studio. Il servizio è stato lanciato a livello “gratuito per tutti” con un limite massimo di 60 query al minuto. Avrai bisogno di una conoscenza approfondita di Python per configurare il servizio (ecco un buon tutorial per iniziare).

Detto questo, Gemini è ancora un promettente modello di intelligenza artificiale multimodale addestrato su audio, immagini, video, codice e testo in diverse lingue. Si scontra con OpenAI GPT-4, che può accettare richieste sia di testo che di immagini. Conosciuto anche come GPT-4V (con la V che sta per visione), il modello è disponibile per ChatGPT Plus utenti tramite il Sito web OpenAIapp mobili e API.

Puoi utilizzare GPT-4V gratuitamente tramite BingChat per caricare immagini o scattare foto dalla fotocamera o dalla webcam del tuo dispositivo. Basta fare clic sull’icona dell’immagine nella casella “Chiedimi qualsiasi cosa…” per allegare un’immagine alla tua query.

Altri modelli multimodali includono Pista Gen-2, un modello che produce video basati su istruzioni di testo, immagini e video esistenti. Allo stato attuale i risultati sembrano molto Generato dall’intelligenza artificiale, ma come prova di concetto, è comunque uno strumento interessante con cui giocare.

Meta ImageBind è un altro modello multimodale che accetta testo, immagini e audio oltre a mappe di calore, informazioni di profondità e inerzia. Vale la pena dare un’occhiata a esempi sul sito Web ImageBind per vedere alcuni dei risultati più interessanti (come il modo in cui l’audio dell’acqua versata e una foto di mele possono essere combinati in un’immagine di mele lavate in un lavandino).

L’adozione di modelli di intelligenza artificiale multimodale è una brutta notizia per chiunque sia già stufo di sentire tutto sulla tecnologia, ed è destinata a mantenere aziende come OpenAI nelle notizie ancora per un po’. La vera storia, però, è come aziende come Apple, Google, Samsung e altri grandi attori porteranno questa tecnologia nelle case e nelle mani dei consumatori.

In definitiva, non devi sapere che stai interagendo con un’altra parola d’ordine dell’IA per trarne benefici. E al di fuori dell’elettronica di consumo, il potenziale in campi come la ricerca medica, lo sviluppo di farmaci, la prevenzione delle malattie, l’ingegneria e così via potrebbe avere l’impatto maggiore di tutti.