Microsoft ha annunciato MAI-Image-1, il suo primo modello di generazione di immagini sviluppato interamente internamente. La società ha dichiarato che il modello sarà disponibile su Copilot e Bing Image Creator “molto presto” ed è attualmente disponibile per i test su LMArena, una piattaforma in cui gli utenti valutano due chatbot anonimi e votano per la migliore risposta.
Nella classifica testo-immagine di LMArena, MAI-Image-1 si è classificata al nono posto, ottenendo un punteggio di 1.096 punti. Per fare un confronto, Gemini-2.5-Flash di Google, noto anche come Nano-Banana, ha ottenuto 1.154 punti e detiene il secondo posto, mentre il modello di OpenAI ha ottenuto 1.123 punti per il settimo posto. La classifica è guidata da Hunyuan-image-3.0, un modello sviluppato dalla società tecnologica cinese Hunyuan.
Microsoft ha dichiarato che il suo team di sviluppo si è concentrato sull’evitare output ripetitivi o genericamente stilizzati con MAI-Image-1. “Ad esempio, abbiamo dato priorità a una rigorosa selezione dei dati e a una valutazione sfumata incentrata su attività che rispecchiano da vicino i casi d’uso creativi del mondo reale”, ha spiegato la società, aggiungendo di aver incorporato il feedback dei professionisti dei settori creativi.
Si dice che il modello eccelle nella generazione di paesaggi e immagini fotorealistiche. Le sue prestazioni sono note per l’acquisizione accurata di dettagli come illuminazione, ombre e riflessi, in particolare rispetto a “molti modelli più grandi e lenti”.
Oltre a MAI-Image-1, Microsoft ha sviluppato altri modelli interni, tra cui MAI-Voice-1 per la generazione del parlato naturale e la serie Phi di piccoli modelli linguistici progettati per compiti di ragionamento efficienti. Questo sviluppo interno avviene parallelamente al continuo supporto finanziario e infrastrutturale dell’azienda per OpenAI.
Il campo della generazione di immagini AI sta attualmente vivendo un periodo di intensa attività. Il modello di OpenAI ha recentemente guadagnato attenzione virale per la sua capacità di imitare lo stile artistico dello Studio Ghibli, mentre “Nano-Banana” di Google è stata riconosciuta per le sue capacità di editing avanzate.
Utilizzando LMArena, AIM ha condotto un confronto tra MAI-Image-1 di Microsoft, Gemini-2.5-Flash di Google e GPT-image-1 di OpenAI. I modelli sono stati testati con un messaggio raffigurante due persone in un bar accanto a una finestra nel tardo pomeriggio. La valutazione si è concentrata sul modo in cui ciascun modello ha gestito l’illuminazione mista, i riflessi e il realismo delle ombre. Gli utenti possono visitare LMArena per testare questi modelli con istruzioni simili.








