OpenAI ha annunciato lo sviluppo di un ampio modello linguistico denominato GPT-Rosalind, appositamente addestrato sui comuni flussi di lavoro della biologia. Il modello, che prende il nome dalla biologa Rosalind Franklin, rappresenta un approccio specializzato all’analisi dei dati biologici, distinguendolo dai modelli più generici tipicamente utilizzati dalle principali aziende tecnologiche.

Yunyun Wang, Life Sciences Product Lead di OpenAI, ha affermato che GPT-Rosalind affronta ostacoli significativi nella ricerca biologica. La prima sfida nasce dai vasti set di dati prodotti da decenni di sequenziamento del genoma e biochimica delle proteine. La seconda sfida riguarda la specializzazione dei numerosi sottocampi della biologia, ciascuno caratterizzato da tecniche uniche e gergo specifico.

Ad esempio, i genetisti potrebbero incontrare difficoltà nel navigare nella vasta letteratura neurobiologica relativa a geni specifici attivi nelle cellule cerebrali. Wang ha osservato che OpenAI ha addestrato GPT-Rosalind su 50 dei flussi di lavoro biologici più comuni e sull’accesso ai principali database pubblici di informazioni biologiche.

Il modello è attrezzato per suggerire potenziali percorsi biologici e dare priorità agli obiettivi farmacologici. “Stiamo collegando il genotipo al fenotipo attraverso percorsi noti e meccanismi regolatori, deducendo probabili proprietà strutturali o funzionali delle proteine ​​e sfruttando davvero questa comprensione meccanicistica”, ha detto Wang.


Credito immagine in primo piano