Apple non è uno dei migliori attori nel film dell‘intelligenza artificiale, ma il nuovo modello di intelligenza artificiale open source dell’azienda per l’editing delle immagini mostra ciò che è in grado di fare. Il modello chiamato MLLM-Guided Image Editing (MGIE), che utilizza modelli multimodali di linguaggio di grandi dimensioni (MLLM) per interpretare comandi basati su testo durante la manipolazione delle immagini. In altre parole, lo strumento ha la capacità di modificare le foto in base al testo digitato dall’utente. Anche se non è il primo strumento a farlo, “le istruzioni umane a volte sono troppo brevi per essere catturate e seguite dai metodi attuali”, dice lo stesso. documento del progetto (PDF) legge.
L’azienda ha sviluppato MGIE con ricercatori dell’Università della California, a Santa Barbara. Gli MLLM hanno il potere di trasformare istruzioni di testo semplici o ambigue in istruzioni più dettagliate e chiare che l’editor di foto stesso può seguire. Ad esempio, se un utente desidera modificare la foto di una pizza ai peperoni per “renderla più salutare”, gli MLLM possono interpretarla come “aggiungere condimenti vegetali” e modificare la foto come tale.
Oltre a apportare modifiche sostanziali alle immagini, MGIE può anche ritagliare, ridimensionare e ruotare le foto, nonché migliorarne la luminosità, il contrasto e il bilanciamento del colore, il tutto tramite istruzioni di testo. Può anche modificare aree specifiche di una foto e, ad esempio, modificare i capelli, gli occhi e i vestiti di una persona ritratta o rimuovere elementi dallo sfondo.