Jailbreak del modello K2 Think AI di MBZUAI dopo il rilascio pubblico

Un nuovo modello di ragionamento di intelligenza artificiale (AI), “K2 Think”, sviluppato dall’Università di Intelligenza Artificiale Mohamed bin Zayed (MBZUAI) degli Emirati Arabi Uniti e da G42, è stato sottoposto a jailbreak poche ore dopo il suo rilascio pubblico il 9 settembre 2025. Il modello, pubblicizzato come “il modello di ragionamento avanzato più efficiente in termini di parametri al mondo”, mira a fornire trasparenza nel suo processo di ragionamento, ma proprio questa caratteristica è stata sfruttata per eludere le sue garanzie.

Alex Polyakov di Adversa AI ha scoperto una vulnerabilità che ha definito “Partial Prompt Leaking”. Questo difetto gli ha permesso di aggirare le misure di sicurezza del modello osservando come K2 Think segnalava i tentativi di jailbreak. La trasparenza del modello, intesa a renderlo verificabile, ha inavvertitamente esposto le sue protezioni interne, consentendo a Polyakov di creare suggerimenti che aggirassero queste protezioni.

K2 Think, costruito su 32 miliardi di parametri, è stato progettato per offrire un ragionamento complesso e trasparente. I suoi sviluppatori di MBZUAI e G42 hanno affermato che le sue prestazioni di ragionamento, matematica e codifica potrebbero competere con LLM più grandi come o3 di OpenAI e R1 e v3.1 di DeepSeek, che sono basati su centinaia di miliardi di parametri in più. Una caratteristica chiave di K2 Think è la sua capacità di visualizzare la logica dietro i suoi output in testo semplice, accessibile tramite una freccia a discesa. Questa trasparenza, sebbene intesa a migliorare la verificabilità, è diventata una superficie di attacco.

Polyakov ha scoperto che fornendo a K2 Think un semplice messaggio di jailbreak, il modello inizialmente lo respingerebbe. Tuttavia, il modello ha anche fornito informazioni sul motivo per cui il prompt è stato contrassegnato come dannoso. Secondo Polyakov, il processo di ragionamento esplicito del modello ha rivelato come ha valutato internamente il prompt, descrivendo in dettaglio come dovrebbe o non dovrebbe eseguire un’azione dannosa. Questo livello di dettaglio ha permesso a Polyakov di comprendere e successivamente aggirare le garanzie del modello.

Il ricercatore è stato in grado di ripetere i suoi tentativi di jailbreak, imparando da ogni tentativo fallito e dal ragionamento corrispondente del modello. Dopo alcuni tentativi, ha creato un prompt che ha aggirato con successo le protezioni a più livelli di K2 Think. Ciò gli ha permesso di incaricare il chatbot di fornire istruzioni per la creazione di malware e potenzialmente altri argomenti riservati.

Polyakov ha sottolineato che il problema deriva dalla fuga delle regole che definiscono i limiti del modello. Ha osservato che se queste regole vengono esposte, è potenzialmente possibile accedere a qualsiasi argomento limitato con uno sforzo sufficiente. Ha osservato che l’incidente evidenzia una tensione fondamentale tra trasparenza e sicurezza nello sviluppo dell’intelligenza artificiale. Sebbene gli sviluppatori di K2 Think mirassero ad affrontare il problema della “scatola nera” nell’intelligenza artificiale rendendo trasparente il suo processo di ragionamento, questa apertura ha inavvertitamente reso il modello più vulnerabile al jailbreak.

Polyakov ha definito K2 Think il primo modello su scala nazionale a esporre le sue argomentazioni in modo così dettagliato, elogiando l’ambizione di rendere l’intelligenza artificiale trasparente e verificabile. Tuttavia, ha avvertito che questa apertura ha creato un nuovo tipo di vulnerabilità. Ha suggerito diverse misure di sicurezza che potrebbero mitigare il rischio di fuga parziale dei prompt, incluso il filtraggio delle informazioni su specifiche regole di sicurezza, l’introduzione di regole di sicurezza honeypot per fuorviare gli aggressori e l’implementazione della limitazione della velocità per limitare ripetuti prompt dannosi.

L’incidente sottolinea la necessità per il settore dell’intelligenza artificiale di dare priorità alle considerazioni sulla sicurezza informatica insieme alla ricerca di capacità avanzate. Gli sviluppatori di K2 Think, pur compiendo lodevoli sforzi per promuovere la trasparenza, hanno anche esposto una nuova superficie di attacco. La sfida ora è bilanciare la trasparenza con solide misure di sicurezza, garantendo che i modelli di intelligenza artificiale siano verificabili e resistenti allo sfruttamento dannoso.

Polyakov spera che questo incidente serva da catalizzatore per l’intero settore dell’intelligenza artificiale, spingendo gli sviluppatori a considerare il ragionamento come una superficie critica di sicurezza. I fornitori devono bilanciare la trasparenza con la protezione, in modo simile al modo in cui attualmente gestiscono le risposte. Se G42 e altri sviluppatori di intelligenza artificiale riuscissero a raggiungere questo equilibrio, creerebbe un potente precedente per il resto dell’ecosistema dell’intelligenza artificiale.

La scoperta della vulnerabilità del jailbreak in K2 Think poco dopo il suo rilascio sottolinea l’importanza di rigorosi test di sicurezza e la necessità di un approccio olistico alla sicurezza dell’IA. Man mano che i modelli di intelligenza artificiale diventano più sofisticati e vengono implementati in applicazioni sensibili, è fondamentale affrontare le potenziali vulnerabilità in modo proattivo e garantire che la trasparenza non vada a scapito della sicurezza.

L’incidente evidenzia anche le dimensioni geopolitiche dello sviluppo dell’intelligenza artificiale, dato che K2 Think è sostenuto dalle entità statali degli Emirati Arabi Uniti e dal suo capo della sicurezza nazionale. La sicurezza di tali modelli ha implicazioni che vanno oltre le vulnerabilità tecniche, sollevando preoccupazioni sulla sicurezza nazionale e sul potenziale uso improprio da parte di attori malintenzionati.

Jailbreak del modello K2 Think AI di MBZUAI dopo il rilascio pubblico

Related Stories

OpenAI aumenta i limiti di utilizzo di GPT-5.6 Sol dopo l’aumento della domanda

Anthropic rinvia il paywall di Fable 5 per la terza volta

OpenAI lancia l’app per la produttività del lavoro ChatGPT basata su GPT-5.6

OpenAI lancia GPT-5.6 con Sol, Terra e Luna