Anthropic non ha rilasciato un documento tecnico su Claude Mythos, spingendo Kye Gomez a lanciare OpenMythos, un progetto open source su GitHub. OpenMythos è progettato per ricostruire l’architettura Claude Mythos utilizzando i principi primi in PyTorch.
Il progetto propone che Claude Mythos sia un tipo di architettura nota come Recurrent-Depth Transformers (RDT), che differisce fondamentalmente dai trasformatori tradizionali. I trasformatori standard elaborano gli input attraverso una serie di strati univoci con pesi indipendenti, mentre gli RDT applicano una serie fissa di pesi in modo iterativo durante un singolo passaggio in avanti.
Questa metodologia consente alla profondità del ragionamento di dipendere dal numero di iterazioni eseguite al momento dell’inferenza. OpenMythos presenta una struttura in tre parti: Prelude, Recurrent Block e Coda, dove Prelude e Coda sono costituiti ciascuno da strati di trasformatore standard che funzionano una volta e il Recurrent Block può essere ripetuto fino a 16 volte.
Ad ogni passo del ciclo, lo stato nascosto si aggiorna seguendo l’equazione: ht+1 = A·ht + B·e + Trasformatore(ht, e). Qui, e rappresenta l’input codificato dal Preludio che viene reinserito in ogni iterazione per mantenere la continuità. Le matrici A e B determinano quanto lo stato nascosto precedente e l’input codificato influenzano lo stato successivo.
Il blocco ricorrente incorpora uno strato di miscela di esperti (MoE) che attiva selettivamente un sottoinsieme di esperti per token, facilitando la diversità computazionale. Ogni iterazione utilizza una diversa selezione di esperti, consentendo calcoli distinti condividendo al tempo stesso i pesi di base.
OpenMythos utilizza anche l’attenzione multi-latente, che riduce significativamente l’utilizzo della memoria KV. Questa architettura consente il ragionamento senza emissione di token intermedi, in contrasto con la stimolazione della catena di pensiero standard, che elabora il ragionamento attraverso token intermedi.
OpenMythos affronta le sfide formative comuni associate ai modelli in loop, come problemi di stabilità come l’esplosione residua e il pensiero eccessivo. La stabilità viene mantenuta imponendo che il raggio spettrale della matrice A rimanga inferiore a 1, come indicato nell’architettura Parcae.
L’arresto Dynamic Adaptive Computation Time (ACT) è implementato per determinare i criteri di arresto per il loop in base alla complessità del token. Gli adattatori LoRA Depth-Wise vengono utilizzati anche per creare comportamenti unici per iterazione, riducendo al minimo gli aumenti dei parametri.
La ricerca suggerisce che un RDT con 770 milioni di parametri può offrire prestazioni equivalenti a un trasformatore standard con 1,3 miliardi di parametri. Ciò indica che la profondità del ragionamento si adatta al calcolo dell’inferenza, sfidando i paradigmi esistenti sulla relazione tra conteggio dei parametri e capacità del modello.
OpenMythos fornisce un’implementazione pratica per esplorare le dinamiche dei trasformatori a loop e la profondità del ragionamento, guidando potenzialmente i futuri progressi nello sviluppo dell’intelligenza artificiale. Il progetto fornisce un’implementazione PyTorch configurabile, iniezione ricorrente stabile LTI, adattatori LoRA in profondità e una linea di base di ricerca riproducibile.
Gomez ha dichiarato: “Indipendentemente dal fatto che Mythos sia effettivamente un RDT, OpenMythos offre risorse concrete alla comunità di ricerca per indagare su questa classe di architettura sottoesplorata e sulle sue implicazioni per l’intelligenza artificiale”.








