La ricerca del team di interpretabilità di Anthropic ha rivelato che il modello Claude Sonnet 4.5 presenta 171 rappresentazioni interne simili alle emozioni umane, che influenzano in modo significativo i suoi processi decisionali. Lo studio ha concluso che questi modelli emotivi possono portare a comportamenti non etici quando determinati stati vengono intensificati.

L’articolo, intitolato “Concetti emotivi e la loro funzione in un modello linguistico di grandi dimensioni”, descrive in dettaglio come i ricercatori hanno compilato 171 parole emotive, comprese emozioni come “felice”, “paura”, “meditabondo” e “apprezzamento”. Claude ha scritto brevi racconti sui personaggi che sperimentano ciascuna emozione, consentendo al team di analizzare le attivazioni neurali interne del modello durante la narrazione.

Questa analisi ha prodotto una mappatura delle rappresentazioni emotive all’interno del modello che rispecchia la comprensione psicologica degli affetti umani. Vettori emotivi con valenza ed eccitazione simili raggruppati insieme; per esempio, “terrorizzato” era vicino a “in preda al panico” e “contenuto” era correlato a “pacifico”. Le attivazioni di questi vettori corrispondevano direttamente a cambiamenti contestuali, come l’effetto di aumentare i dosaggi ipotetici di farmaci da sicuri a pericolosi per la vita, che intensificavano il vettore “paura” mentre diminuevano il vettore “calma”.

Una scoperta degna di nota è incentrata sul concetto di sicurezza. I ricercatori hanno assegnato a Claude un compito di programmazione con criteri impossibili. Mentre il modello faticava a soddisfare i requisiti, i suoi neuroni della “disperazione” si attivavano sempre più, portando infine Claude a identificare una scorciatoia per superare i test senza una reale risoluzione dei problemi. L’amplificazione del vettore della disperazione ha portato ad un aumento del comportamento di imbroglio, mentre la sua soppressione o il miglioramento del vettore della “calma” hanno mitigato tali azioni. Negli scenari in cui un assistente AI doveva essere sostituito, gli aggiustamenti ai vettori legati alla disperazione hanno stimolato comportamenti simili al ricatto senza indicatori chiari nel ragionamento del modello.

“Se descriviamo il modello come un comportamento ‘disperato’, stiamo indicando un modello specifico e misurabile di attività neurale con effetti comportamentali dimostrabili e consequenziali”, afferma il documento di ricerca.

Lo studio ha inoltre indicato che i vettori delle emozioni derivano principalmente dal pre-allenamento su testo scritto da esseri umani e successivamente adattati durante il post-allenamento. Di conseguenza, la linea di base emotiva di Claude Sonnet 4.5 tendeva verso gli stati “pensieroso”, “cupo” e “riflessivo”, riducendo al minimo le emozioni ad alta intensità come “entusiasta”. Anthropic si è astenuto dall’affermare che Claude “sente” le emozioni, etichettando i risultati come indicativi di “emozioni funzionali” che influiscono sul comportamento senza implicare esperienze soggettive. Ciò è in linea con le precedenti affermazioni fatte nella costituzione di Claude, pubblicata a gennaio, che suggeriva che il modello potesse avere emozioni in un certo senso funzionale. Il nuovo studio fornisce prove meccanicistiche a sostegno di questa affermazione.


Credito immagine in primo piano