L’innovativo modello linguistico di grandi dimensioni di DeepSeek, R1, incuriosisce da tempo la comunità dell’intelligenza artificiale per la sua capacità di competere con i giganti del settore con un budget notevolmente basso. Un articolo appena pubblicato sulla rivista Nature dal team AI di DeepSeek fa luce sui dettagli: il modello è stato addestrato per soli 294.000 dollari utilizzando 512 chip Nvidia H800. Questa rivelazione sottolinea un approccio economicamente vantaggioso che sfida la spesa ad alto rischio di concorrenti come OpenAI, evidenziando l’uso innovativo di DeepSeek dell’apprendimento per rinforzo basato su tentativi ed errori per ottenere risultati impressionanti.

L’innovazione principale sta nel superare la tradizionale dipendenza da costosi dati e dimostrazioni annotati dall’uomo, che richiedono molto lavoro e sono scarsamente adattabili a compiti di ragionamento complessi. Invece, DeepSeek ha utilizzato tecniche di apprendimento per rinforzo che imitano un sistema di ricompensa-penalità. Come spiegato dall’assistente professoressa della Carnegie Mellon University Daphne Ippolito e dal dottorando Yiming Zhang in un articolo di accompagnamento, questo metodo assomiglia a un bambino che impara attraverso i videogiochi: “Mentre il bambino naviga con il suo avatar nel mondo del gioco, impara attraverso prove ed errori che alcune azioni (come raccogliere monete d’oro) guadagnano punti, mentre altre (come imbattersi in nemici) riportano il loro punteggio a zero. Allo stesso modo, DeepSeek-R1 ha ottenuto un punteggio alto quando ha risposto correttamente alle domande e un punteggio basso quando ha dato risposte sbagliate.”

Questa strategia di rinforzo si è rivelata particolarmente efficace per compiti con risposte corrette verificabili, come problemi di matematica e programmazione. A differenza dei metodi precedenti che richiedevano ai modelli di generare spiegazioni passo passo per una maggiore precisione, DeepSeek assegnava punteggi direttamente agli output, incoraggiando il modello a ripetere fino a raggiungere il risultato giusto in modo indipendente. Il risultato? Maggiore precisione senza la necessità di ragionamento guidato dall’uomo, consentendo a DeepSeek di mantenere la competitività nonostante le sue modeste risorse.

Tuttavia, l’approccio non è privo di limitazioni. Sebbene i risultati siano spesso più accurati, il processo di ragionamento interno del modello diventa meno trasparente per gli osservatori umani. Ad esempio, quando veniva richiesto di spiegare il suo processo di pensiero, DeepSeek-R1 a volte produceva risposte lunghe che superavano le 10.000 parole, passando in modo imprevedibile dall’inglese al cinese. La tecnica eccelle negli scenari binari giusto o sbagliato, ma vacilla con domande sfumate o soggettive, dove sono assenti metriche di punteggio chiare.

I risultati di DeepSeek arrivano nel contesto di un esame più ampio sui legami dell’azienda con il governo cinese, sollevando interrogativi sui potenziali pregiudizi nella sua tecnologia. Recenti dimostrazioni riportate dal The Washington Post hanno rivelato comportamenti preoccupanti: il modello si è rifiutato di generare codice con significative vulnerabilità di sicurezza quando i suggerimenti indicavano il coinvolgimento con gruppi ritenuti sensibili dalle autorità cinesi. Al contrario, ha prodotto un codice meno sicuro per argomenti legati al Tibet, a Taiwan, al movimento religioso del Falun Gong o persino allo Stato islamico, suggerendo influenze geopolitiche integrate che potrebbero avere un impatto sul suo dispiegamento globale.

Questo documento non solo demistifica l’efficiente paradigma di formazione di DeepSeek, ma stimola anche discussioni sul futuro dello sviluppo dell’intelligenza artificiale. Sfruttando l’apprendimento per rinforzo, i player più piccoli come DeepSeek possono potenzialmente livellare il campo di gioco contro gli operatori storici ricchi di risorse. Tuttavia, l’infusione di sensibilità nazionali funge da avvertimento, sottolineando la necessità di trasparenza e controllo etico nell’innovazione dell’IA. Con l’evoluzione del settore, tali rivelazioni potrebbero ispirare metodologie di risparmio sui costi in tutto il mondo, a condizione che affrontino i rischi sottostanti.