NVIDIA ha annunciato la GPU “Rubin CPX” all’AI Infra Summit, un acceleratore specializzato della prossima famiglia “Rubin” progettato per modelli AI di contesti massicci. Previsto per la fine del 2026, il chip fornisce 30 PetaFLOPS di calcolo NVFP4 su un die monolitico con 128 GB di memoria GDDR7. Questa configurazione monolitica è un allontanamento dai pacchetti dual-GPU delle attuali architetture Blackwell e Blackwell Ultra di NVIDIA e da ciò che seguirà il resto della famiglia Rubin. Rubin CPX risolve i colli di bottiglia computazionali in scenari di contesto esteso, elaborando milioni di token simultaneamente per applicazioni come l’analisi completa della base di codice software e l’elaborazione video di un’ora, che può richiedere fino a un milione di token.
Il processore integra quattro codificatori video NVENC e quattro NVDEC su chip, consentendo flussi di lavoro multimediali ottimizzati. NVIDIA afferma che Rubin CPX offre tre volte la velocità di elaborazione dell’attenzione dei suoi attuali sistemi di accelerazione GB300 Blackwell Ultra. L’architettura utilizza un approccio a die singolo ottimizzato in termini di costi per ridurre potenzialmente la complessità della produzione mantenendo la densità computazionale. Sebbene le specifiche della larghezza di banda della memoria non siano divulgate, un’interfaccia a 512 bit potrebbe produrre un throughput di circa 1,8 TB/s con chip di memoria GDDR7 da 30 Gbps.
NVIDIA prevede di integrare i processori Rubin CPX nella piattaforma Vera Rubin NVL144 CPX, combinando le tradizionali GPU Rubin con le varianti CPX specializzate. Questa configurazione ibrida mira a 8 ExaFLOPS di elaborazione aggregata e 1,7 PB/s di larghezza di banda della memoria in un’implementazione rack completa. Il rack “Kyber” includerà adattatori di rete ConnectX-9 con rete 1600G, Spectrum6 con switching 102.4T e ottiche co-package.
NVIDIA sta commercializzando Rubin CPX come un pezzo unico della famiglia Rubin per gestire la complessità dei sistemi IA scalabili in fase di test. Man mano che i modelli si evolvono in sofisticati agenti di ragionamento, l’inferenza si divide tra l’elaborazione del contesto ad alta intensità computazionale e la generazione di token dipendente dalla larghezza di banda della memoria. Il design CPX è ottimizzato per questi doppi requisiti, gestendo operazioni di precompilazione del contesto per chatbot aziendali con 256.000 token o analisi del codice che superano le 100.000 righe. Questa specializzazione è fondamentale per i sistemi di intelligenza artificiale che necessitano di memoria persistente attraverso interazioni estese, che NVIDIA mira a abilitare senza soluzione di continuità con questo hardware.
Il rapido ciclo di sviluppo di NVIDIA ha incrementato le sue prestazioni finanziarie, con la società che ha registrato vendite di data center per 41,1 miliardi di dollari nel trimestre più recente.








