Nvidia ha rilasciato dati di benchmark che mostrano che i suoi sistemi GB300 NVL72 con GPU Blackwell Ultra offrono un throughput per megawatt fino a 50 volte superiore e un costo per token 35 volte inferiore rispetto alla precedente piattaforma Hopper per carichi di lavoro AI a bassa latenza. I guadagni in termini di prestazioni sono rivolti al mercato in crescita delle applicazioni di intelligenza artificiale e degli assistenti di codifica.

I Blackwell Ultra Tensor Core offrono prestazioni di elaborazione 1,5 volte superiori rispetto alle GPU Blackwell standard. L’elaborazione del livello di attenzione è raddoppiata attraverso l’esecuzione accelerata del softmax, risolvendo i colli di bottiglia nei livelli di attenzione del trasformatore utilizzati dai modelli di ragionamento con ampie finestre di contesto. Anche la libreria di inferenza TensorRT-LLM di Nvidia è migliorata, con i benchmark SemiAnalysis che mostrano che il throughput per GPU è raddoppiato ad alcuni livelli di interattività dall’ottobre 2025. La combinazione di questi progressi hardware e software ha comportato un aumento di 10 volte dei token al secondo per utente e un miglioramento di 5 volte dei token al secondo per megawatt rispetto a Hopper, ottenendo l’aumento di 50 volte riportato nell’output di fabbrica dell’IA.

“Mentre l’inferenza si sposta al centro della produzione dell’intelligenza artificiale, le prestazioni a lungo contesto e l’efficienza dei token diventano fondamentali”, ha affermato Chen Goldberg, vicepresidente senior dell’ingegneria presso CoreWeave. “Grace Blackwell NVL72 affronta direttamente questa sfida.”

I principali fornitori di servizi cloud stanno implementando l’infrastruttura GB300 NVL72. CoreWeave ha annunciato nel 2025 di essere stato il primo fornitore di cloud AI a implementare i sistemi in produzione, integrandoli con il suo stack cloud basato su Kubernetes. Microsoft ha implementato quello che ha definito il primo cluster di supercalcolo GB300 NVL72 su larga scala al mondo, raggiungendo oltre 1,1 milioni di token al secondo su un singolo rack nei test convalidati da Signal65. La piattaforma OCI di Oracle sta implementando sistemi GB300 NVL72 con piani di scalabilità dei suoi Supercluster oltre 100.000 GPU Blackwell per soddisfare la domanda di carichi di lavoro di inferenza.

La riduzione dei costi sta rimodellando l’economia dell’implementazione dell’IA. I principali fornitori di inferenza, tra cui Baseten, DeepInfra, Fireworks AI e Together AI, hanno riportato riduzioni dei costi fino a 10 volte utilizzando la piattaforma Blackwell standard. La piattaforma Blackwell Ultra estende questi vantaggi per carichi di lavoro a bassa latenza, con un costo per milione di token 35 volte inferiore che consente un’implementazione più economicamente sostenibile di agenti IA e assistenti di codifica su larga scala.

Nvidia ha presentato in anteprima la sua piattaforma Rubin di prossima generazione, sostenendo che fornirà un ulteriore miglioramento delle prestazioni 10 volte rispetto a Blackwell.


Credito immagine in primo piano