DeepSeek, una startup cinese di intelligenza artificiale, ha rivelato un nuovo modello, “MODEL1”, nel suo repository di codice FlashMLA su GitHub, apparendo 28 volte su 114 file. La rivelazione coincide con il primo anniversario del rilascio di R1 di DeepSeek. MODEL1 rappresenta un'architettura distinta da DeepSeek-V3.2, nome in codice interno “V32”. L'analisi del codice da parte degli sviluppatori indica cambiamenti nel layout della cache dei valori-chiave, nella gestione della scarsità e nella decodifica del formato dei dati FP8. Queste alterazioni suggeriscono una ristrutturazione mirata per l’ottimizzazione della memoria e l’efficienza computazionale. La divulgazione è avvenuta tramite il repository FlashMLA di DeepSeek, che contiene il kernel di decodifica Multi-Head Latent Attention dell'azienda per le GPU Nvidia Hopper. Gli aggiornamenti al codice sorgente FlashMLA hanno aggiunto il supporto per MODEL1, inclusa la compatibilità con la prossima architettura Blackwell di Nvidia (SM100), secondo i post sulla comunità LocalLLaMA di Reddit. Le modifiche al codice mostrano che MODEL1 ritorna a una dimensione standard 512 unificata e incorpora funzionalità descritte come “Value Vector Position Awareness” e possibili implementazioni del sistema di memoria condizionale “Engram” di DeepSeek. DeepSeek prevede di rilasciare il suo modello V4 di prossima generazione intorno a metà febbraio 2026, in coincidenza con il capodanno lunare il 17 febbraio, secondo L'informazionecome citato da Reuters. Test interni condotti dai dipendenti di DeepSeek suggeriscono che V4 potrebbe sovraperformare i modelli rivali di Anthropic e OpenAI sui benchmark di codifica, in particolare con istruzioni di codice lunghe. Si prevede che il modello V4 integrerà l'architettura Engram di DeepSeek, che consente il recupero efficiente da contesti che superano un milione di token utilizzando un sistema di ricerca per fatti fondamentali. La rivelazione di MODEL1 arriva un anno dopo il debutto di DeepSeek su R1 nel gennaio 2025. Questo evento, definito “momento AI Sputnik” dal venture capitalist Marc Andreessen, ha comportato una riduzione di 593 miliardi di dollari del valore di mercato di Nvidia in un solo giorno, ITPro riportato. Secondo quanto riferito, il modello R1 di DeepSeek è costato meno di 6 milioni di dollari per l'addestramento, ma ha eguagliato o superato il modello o1 di OpenAI sui benchmark matematici e di codifica. La società ha successivamente rilasciato la V3.1 in agosto e la V3.2 a dicembre, con la V3.2 descritta come in grado di offrire prestazioni equivalenti a GPT-5 di OpenAI.
Credito immagine in primo piano
Source: DeepSeek scopre l'identificatore MODEL1 prima del lancio della V4