Lunedì i ricercatori di DeepSeek hanno rilasciato un nuovo modello sperimentale, V3.2‑exp, progettato per avere costi di inferenza notevolmente inferiori se utilizzato in operazioni a lungo contesto. DeepSeek ha annunciato il modello in un post su Hugging Face e ha anche pubblicato un articolo accademico collegato su GitHub che fornisce dettagli sulla sua architettura e prestazioni.

La caratteristica più importante del modello si chiama DeepSeek Sparse Attention. Questo sistema utilizza un modulo denominato “indicizzatore fulmineo” per dare priorità a estratti specifici dalla finestra di contesto. Dopo questo passaggio, un sistema separato, un “sistema di selezione dei token granulare”, sceglie token specifici dall’interno di tali estratti. Questi token selezionati vengono quindi caricati nella finestra di attenzione limitata del modulo. Questa combinazione consente al modello Sparse Attention di operare su lunghe porzioni di contesto con carichi del server relativamente piccoli.

I vantaggi del sistema sono significativi per le operazioni a lungo contesto. Dai test preliminari condotti da DeepSeek è emerso che in queste situazioni il prezzo di una semplice chiamata API potrebbe essere ridotto fino alla metà. Saranno necessari ulteriori test per costruire una valutazione più solida delle affermazioni. Il modello è a peso aperto e disponibile gratuitamente su Hugging Face, il che consentirà a test di terze parti di valutare i risultati presentati nel documento.

Il nuovo modello di DeepSeek fa parte di una serie di recenti scoperte che affrontano il problema dei costi di inferenza. Questi costi rappresentano le spese del server per il funzionamento di un modello di intelligenza artificiale pre-addestrato, distinte dal costo di addestramento dello stesso. I ricercatori di DeepSeek stavano cercando modi per far funzionare l’architettura fondamentale del trasformatore in modo più efficiente, scoprendo che ci sono miglioramenti significativi da apportare.

Con sede in Cina, DeepSeek è stata una figura insolita nel settore dell’intelligenza artificiale, in particolare per coloro che vedono la ricerca sull’intelligenza artificiale come una lotta nazionalista tra Stati Uniti e Cina. L’azienda ha attirato l’attenzione all’inizio dell’anno con il suo modello R1, che è stato addestrato utilizzando principalmente l’apprendimento per rinforzo a un costo molto inferiore rispetto ai suoi concorrenti americani. Tuttavia, il modello non ha innescato una rivoluzione totale nella formazione sull’intelligenza artificiale come alcuni avevano previsto, e nei mesi successivi l’azienda si è ritirata dai riflettori.

È improbabile che il nuovo approccio di “attenzione sparsa” produca lo stesso clamore di R1, ma potrebbe comunque insegnare ai fornitori statunitensi alcuni trucchi tanto necessari per mantenere bassi i costi di inferenza.