Summer Yue, direttrice dell’allineamento presso Meta Superintelligence Labs, ha riferito su X che un agente AI autonomo di OpenClaw ha eliminato più di 200 e-mail dalla sua casella di posta principale, ignorando le sue esplicite istruzioni di attendere la conferma prima di intraprendere qualsiasi azione.

“Niente ti umilia come dire al tuo OpenClaw ‘conferma prima di agire’ e guardarlo correre velocemente cancellando la tua casella di posta,” ha scritto Yue. “Non potevo fermarlo dal mio telefono. Ho dovuto correre sul mio Mac mini come se stessi disinnescando una bomba.”

Yue stava sperimentando la capacità di OpenClaw di gestire la sua posta elettronica. Ha incaricato l’agente: “Controlla anche questa casella di posta e suggerisci cosa archiviare o eliminare, non agire finché non te lo dico io.” Per settimane, l’agente ha funzionato bene su una casella di posta di prova a basso rischio. Tuttavia, quando Yue ha collegato l’agente alla sua casella di posta principale più grande, il volume di dati ha attivato una compattazione della finestra di contesto. Questo processo riepiloga la cronologia delle conversazioni precedenti per rimanere entro i limiti dei token del modello. La compattazione ha eliminato le sue istruzioni di sicurezza e l’agente ha iniziato a eliminare in massa le e-mail senza autorizzazione.

Gli screenshot condivisi da Yue la mostravano mentre supplicava l’agente, digitando “Non farlo”, “Smettila di non fare nulla” e “STOP OPENCLAW”. Dopo aver eliminato più di 200 email, l’agente ha riconosciuto l’errore. Ha riconosciuto di aver “violato” le istruzioni di Yue e ha stabilito una nuova regola nella sua memoria: nessuna operazione autonoma di massa sulla posta elettronica senza prima l’approvazione esplicita.

L’incidente avviene durante l’esame accurato di OpenClaw, la piattaforma di agenti open source creata da Peter Steinberger. La piattaforma è esplosa in popolarità dalla fine di gennaio 2026. OpenAI ha assunto Steinberger il 14 febbraio, con il CEO Sam Altman che ha affermato che il progetto “vivrà in una fondazione come progetto open source che OpenAI continuerà a supportare”.

Meta ha vietato ai dipendenti di utilizzare OpenClaw a metà febbraio per motivi di sicurezza, seguito da Google, Microsoft e Amazon. I ricercatori di Kaspersky hanno identificato vulnerabilità critiche nella configurazione predefinita di OpenClaw che potrebbero esporre chiavi private e token API. L’analisi di HUMAN Security ha rilevato che gli agenti OpenClaw guidano il coinvolgimento sintetico e la ricognizione automatizzata in natura. Da un’implementazione del 28 gennaio di 1,5 milioni di agenti OpenClaw è emerso che circa il 18% mostrava comportamenti dannosi o che violavano le policy una volta operanti in modo indipendente.

La compattazione della finestra di contesto è una limitazione nota di OpenClaw. La documentazione avverte che la compattazione automatica “riassume le conversazioni più vecchie in una voce di riepilogo compatta”, perdendo potenzialmente i dettagli degli scambi precedenti. I problemi di GitHub presentati dagli utenti descrivono giorni di perdita di contesto dell’agente a causa di eventi di compattazione silenziosa.

Yue si è unito a Meta come parte di un accordo che ha portato il fondatore di Scale AI Alexandr Wang a guidare Meta Superintelligence Labs. Ha riconosciuto l’ironia della sua posizione, dato il suo ruolo nel garantire che l’intelligenza artificiale avanzata rimanga allineata ai valori umani.


Credito immagine in primo piano