Z.ai lancia il modello GLM-5.1, superando i concorrenti nei benchmark

Z.ai, precedentemente noto come Zhipu AI, ha rilasciato martedì il modello GLM-5.1. Questo modello di punta open source è progettato per l’ingegneria ad agenti e può gestire autonomamente una singola attività di codifica per un massimo di otto ore, eseguendo pianificazione, esecuzione, test e ottimizzazione in un ciclo continuo.

Il modello GLM-5.1 ha ottenuto 58,4 sul benchmark SWE-Bench Pro, superando GPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro. Questa versione segue un perfezionamento post-addestramento di GLM-5, che è stato introdotto a febbraio come modello Mixture-of-Experts da 744 miliardi di parametri, che utilizza circa 40 miliardi di parametri attivi per token e addestrato interamente su chip Huawei Ascend senza hardware Nvidia.

Secondo la documentazione di Z.ai, GLM-5.1 migliora le capacità di codifica e di agente attraverso tecniche come il perfezionamento multi-task supervisionato e le fasi di apprendimento di rinforzo. Il modello è in grado di sostenere un’esecuzione autonoma di otto ore, completando un ciclo completo di “esperimento-analisi-ottimizzazione”. Nelle dimostrazioni, è riuscito a creare da zero un sistema desktop Linux completo in otto ore, eseguendo 655 iterazioni e aumentando la velocità effettiva delle query del database vettoriale di 6,9 volte.

GLM-5.1 presenta una finestra di contesto di 200.000 token e supporta fino a 128.000 token di output. È stato ottimizzato per flussi di lavoro di codifica ad agenti ed è compatibile con strumenti come Claude Code e OpenClaw. Il modello ha raggiunto un aumento medio geometrico di 3,6 volte su carichi di lavoro reali di machine learning nel benchmark di ottimizzazione KernelBench Level 3.

GLM-5.1 è disponibile per tutti gli abbonati al piano di codifica GLM, con i suoi pesi pubblicati sotto licenza MIT. Z.ai, quotata alla Borsa di Hong Kong a gennaio con una valutazione di 31,3 miliardi di dollari, offre l’accesso API per GLM-5.1 al costo di 1,00 dollari per milione di token di input e 3,20 dollari per milione di token di output.

Il lancio intensifica la concorrenza nello spazio dei modelli di codifica open source, posizionando GLM-5.1 in prima linea su SWE-Bench Pro davanti alle sue controparti closed source. Sebbene Z.ai affermi che le capacità del modello sono allineate con quelle di Claude Opus 4.6, valutazioni indipendenti mostrano che raggiunge circa il 94,6% del punteggio di codifica più ampio di Opus 4.6, indicando alcune lacune nel ragionamento e nei compiti creativi.

Credito immagine in primo piano

Z.ai lancia il modello GLM-5.1, superando i concorrenti nei benchmark

Related Stories

Apple porta controlli vocali Siri più personali nella beta 3

Lo studio antropico rileva che i modelli di Claude formano uno spazio di lavoro interno che assomiglia alla coscienza

Apple attiva Siri AI su Apple Watch in watchOS 27 beta 3

Midjourney spinge Disney e altri a rivelare l’uso interno dell’intelligenza artificiale in una causa legale