Il colosso tecnologico Apple ha rotto il silenzio sull’intelligenza artificiale e ha introdotto i suoi modelli multimodali di linguaggio di grandi dimensioni (LLM) di prossima generazione chiamati MM1.
MM1, che esegue con successo compiti complessi come sottotitoli di immagini, risposta a domande visive e inferenza del linguaggio naturale, è visto come un importante sviluppo nel mondo dell’intelligenza artificiale.
Cos’è MM1?
Come accennato in precedenza, MM1 è un modello multimodale di grande linguaggio progettato per didascalia di immagini, risposta a domande visive ed esecuzione di inferenze in linguaggio naturale. Ha lo scopo di eseguire compiti complessi combinando testo e dati visivi. I ricercatori Apple riferiscono che MM1 offre risultati molto migliori rispetto ad altri risultati preliminari di allenamento.
Specifiche tecniche di MM1
Supportando fino a 30 miliardi di parametri, MM1 si distingue come una famiglia di modelli in grado di elaborare insieme dati di immagini e testo. Addestrato in diversi tipi di dati come sottotitoli di immagini, testo di immagini intervallato e solo testo, MM1 ha una capacità di elaborazione delle informazioni più completa.
D’altro canto, lo sviluppo di MM1 dimostra anche l’importanza che Apple attribuisce all’intelligenza artificiale. Apple, al lavoro su un framework LLM nome in codice “Ajax” e includendo iniziative come DarwinAI, vede l’intelligenza artificiale e l’apprendimento automatico come tecnologie fondamentali. La società prevede di condividere i dettagli del proprio lavoro in quest’area nel 2024 e di fare una presentazione incentrata sull’intelligenza artificiale alla conferenza degli sviluppatori WWDC a giugno.
MM1 di Apple è considerato un importante passo avanti nel campo dei LLM multimodali. Ciò dimostra che Apple rompe il silenzio sull’intelligenza artificiale, che potrebbe svolgere un ruolo importante nel prossimo futuro. Lo sviluppo di MM1 contribuirà all’ulteriore sviluppo dell’intelligenza artificiale in settori quali l’elaborazione dei dati visivi e la comprensione del linguaggio naturale.
Credito immagine in primo piano: Sumudu Mohottige / Unsplash
Source: Apple rivela il suo LLM multimodale: MM1