Guide Labs, una startup con sede a San Francisco, ha annunciato lunedì l’open source di Steerling-8B, un modello linguistico di grandi dimensioni da 8 miliardi di parametri. L’azienda, fondata dal CEO Julius Adebayo e dal chief science officer Aya Abdelsalam Ismail, ha sviluppato il modello con un’architettura distinta progettata per tracciare ogni token generato dal LLM alle sue origini specifiche all’interno dei dati di addestramento. Questa funzionalità consente agli utenti di identificare materiali di riferimento per affermazioni fattuali o analizzare attributi complessi come l’umorismo e la codifica di genere all’interno dell’output del modello.
Lo sviluppo di Steerling-8B deriva dalla ricerca iniziata da Adebayo durante il suo dottorato di ricerca al MIT. Nel 2018, è stato coautore di un articolo ampiamente citato in cui dimostrava che i metodi esistenti per comprendere i modelli di deep learning erano inaffidabili. Questo lavoro fondamentale ha portato a una nuova metodologia per la creazione di LLM che ingegnerizza l’interpretabilità direttamente nella struttura del modello. Invece di applicare un’analisi post-hoc – ciò che Adebayo descrive come “neuroscienza su un modello” – Guide Labs inserisce un livello concettuale che raggruppa i dati in categorie tracciabili. Sebbene questo approccio richieda un’annotazione dei dati più anticipata assistita da altri modelli di intelligenza artificiale, stabilisce un quadro trasparente da zero.
Nonostante l’architettura strutturata, Steerling-8B mantiene comportamenti emergenti. Il team tiene traccia di quelli che definisce “concetti scoperti”, che il modello identifica in modo indipendente durante la formazione. Adebayo ha citato l’informatica quantistica come esempio di un concetto che il modello ha trovato da solo, illustrando che il sistema non si basa esclusivamente su categorie di dati pre-etichettate.
Adebayo ha affrontato le complessità del controllo del comportamento del modello, in particolare per quanto riguarda attributi sensibili come il genere. “Se ho un trilione di modi per codificare il genere, e lo codifico in 1 miliardo dei 1 trilioni di cose che ho, devi assicurarti di trovare tutte quelle 1 miliardo di cose che ho codificato, e poi devi essere in grado di accenderlo e spegnerlo in modo affidabile”, ha detto Adebayo a TechCrunch. Ha osservato che, sebbene i modelli attuali consentano un certo controllo, esso rimane fragile, caratterizzando la gestione affidabile di queste codifiche come “una delle domande del Santo Graal” nel settore.
L’azienda identifica diverse applicazioni pratiche per l’interpretabilità di Steerling-8B. Nelle applicazioni rivolte ai consumatori, l’architettura consente agli sviluppatori di bloccare materiale protetto da copyright o di controllare gli output relativi ad argomenti sensibili come la violenza o l’abuso di droghe. Nei settori regolamentati, in particolare nel settore finanziario, il modello consente la conformità in aree come la valutazione dei prestiti, dove l’algoritmo può essere incaricato di considerare i registri finanziari ignorando esplicitamente la razza. Guide Labs ha anche sviluppato una tecnologia per la ricerca scientifica, rispondendo alla necessità di comprendere perché i modelli di deep learning producono risultati specifici, come nelle simulazioni di ripiegamento delle proteine.
I benchmark delle prestazioni indicano che Steerling-8B raggiunge il 90% della capacità dei modelli esistenti e non interpretabili utilizzando meno dati di addestramento. Adebayo sostiene che questa efficienza dimostra un passaggio dalla scienza teorica all’ingegneria pratica. “Questo modello dimostra che la formazione di modelli interpretabili non è più una sorta di scienza; ora è un problema di ingegneria”, ha affermato Adebayo. “Abbiamo capito i dati scientifici e possiamo ridimensionarli, e non c’è motivo per cui questo tipo di modello non possa eguagliare le prestazioni dei modelli di livello di frontiera.”
Guide Labs ha avuto origine da Y Combinator e si è assicurata un round iniziale di 9 milioni di dollari da Inizialized Capital nel novembre 2024. La tabella di marcia dell’azienda include la costruzione di un modello più ampio e la fornitura di API e accesso tramite agenti agli utenti. Adebayo ha sottolineato l’importanza di democratizzare l’interpretabilità man mano che i sistemi di intelligenza artificiale diventano più potenti. “Il modo in cui stiamo attualmente addestrando i modelli è estremamente primitivo, quindi democratizzare l’interpretabilità intrinseca sarà in realtà una cosa positiva a lungo termine per il nostro ruolo all’interno della razza umana”, ha detto Adebayo. “Mentre stiamo cercando questi modelli che saranno super intelligenti, non vuoi che qualcosa prenda decisioni per tuo conto che sia un po’ misterioso per te.”







