Anthropic si è scusata per aver segretamente limitato il suo modello di intelligenza artificiale, Claude Fable 5, con guardrail nascosti che ostacolano lo sviluppo di ricercatori e concorrenti. La società ha dichiarato che migliorerà la trasparenza riguardo all’applicazione di queste restrizioni, anche se ciò porterà Fable a rifiutare più domande.
Fable è il primo modello ampiamente disponibile nella classe di sistemi di intelligenza artificiale Mythos di Anthropic, che la società ha avvertito essere troppo pericolosi per il rilascio pubblico. È stato lanciato con misure di sicurezza che gli impediscono di rispondere a determinate domande “ad alto rischio”.
Un’area di restrizione è la distillazione, un metodo per addestrare modelli più piccoli utilizzando i risultati di quelli più grandi. Nella scheda di sistema di Fable, Anthropic ha indicato che avrebbe alterato e degradato le risposte alle domande percepite come tentativi di distillazione senza informare gli utenti di questi cambiamenti.
Ora, le query sospettate di essere tentativi di distillazione verranno impostate automaticamente su Claude Opus 4.8, il precedente modello di punta dell’azienda, e gli utenti riceveranno notifiche ogni volta che ciò si verifica. Questo fallback si applica anche ad altri settori ad alto rischio come la biologia, la chimica e la sicurezza informatica, a meno che tali query non siano completamente bloccate a causa di norme di sicurezza più ampie contro argomenti come la droga e le armi.
La società ha riconosciuto che le sue misure di sicurezza hanno inavvertitamente reso Fable quasi inutilizzabile per query di base in aree come la biologia a causa di restrizioni eccessive. Anthropic ha ammesso che l’uso di misure di sicurezza invisibili è stato un errore, sottolineando che la trasparenza delle misure di sicurezza è fondamentale.
La decisione dell’azienda di nascondere le restrizioni ha subito una forte reazione da parte della comunità di ricerca sull’intelligenza artificiale, che ha sostenuto che ciò limitava le capacità del modello sia per i valutatori che per i concorrenti. Anthropic ha affermato che l’utilizzo di Claude per creare modelli concorrenti viola i suoi Termini di servizio, avendo precedentemente accusato i rivali, tra cui DeepSeek, di distillare i suoi modelli su scala industriale.
“Le garanzie visibili possono essere esaminate, quindi devono essere robuste, il che richiede tempo per essere implementato correttamente”, ha scritto Anthropic. “Le misure di sicurezza invisibili possono essere mirate in modo più ristretto, permettendoci di spedire rapidamente con pochissimi falsi positivi. Per questo motivo abbiamo optato per le misure di sicurezza invisibili, e questo è stato il compromesso sbagliato. Dovresti avere visibilità sulle misure di sicurezza che abbiamo in atto e perché. Siamo spiacenti di non aver trovato il giusto equilibrio”, ha aggiunto la società.








