Il 12 settembre 2025, Amer S, un ingegnere del software, e Ryan McKenna, un ricercatore presso Google Research, hanno annunciato VaultGemma, contrassegnandolo come il modello linguistico più capace addestrato da zero con privacy differenziale (DP). Questo sviluppo arriva in un momento cruciale in cui l’intelligenza artificiale permea sempre più la vita quotidiana, sollevando richieste urgenti di progetti incentrati sulla privacy. La privacy differenziale affronta queste preoccupazioni incorporando rumore calibrato nei processi di addestramento per impedire ai modelli di memorizzare dati sensibili. Tuttavia, l’implementazione della DP in modelli linguistici di grandi dimensioni (LLM) presenta sfide significative, tra cui interruzioni della stabilità dell’addestramento, la necessità di batch di dimensioni maggiori e costi computazionali crescenti. Questi compromessi alterano le tradizionali leggi di scala che governano le prestazioni dell’IA, rendendo essenziale comprenderne le dinamiche per un efficace sviluppo dell’IA privata.

L’annuncio evidenzia uno sforzo di ricerca collaborativa intitolato “Scaling Laws for Differentially Private Language Models”, condotto in collaborazione con Google DeepMind. Questo studio stabilisce equazioni precise che modellano gli intricati compromessi tra risorse di calcolo, garanzie di privacy e utilità del modello. Concentrandosi sul rapporto rumore-lotto, un parametro chiave che confronta il rumore indotto dalla privacy con le dimensioni dei lotti, la ricerca semplifica la complessa interazione di questi fattori. L’intuizione fondamentale è che le prestazioni del modello nell’ambito della formazione DP sono determinate prevalentemente da questo rapporto, consentendo ai ricercatori di prevedere configurazioni ottimali per ridurre al minimo la perdita di formazione dati i vincoli su calcolo, privacy e budget di dati.

Gli esperimenti alla base di queste leggi di scala hanno abbracciato varie dimensioni di modelli e rapporti rumore-batch, confermando il ruolo centrale del rapporto. Il quadro risultante modella la perdita in funzione della dimensione del modello, del numero di iterazioni di formazione e del rapporto rumore-lotto, fornendo uno strumento semplificato per i professionisti. Questo approccio supera la complessità esponenziale di testare tutte le possibili combinazioni sfruttando relazioni deterministiche e dati empirici. Ad esempio, le leggi consentono domande come determinare la migliore configurazione per un budget di elaborazione fisso, livello di privacy (misurato da epsilon, ε) e volume di dati per ottenere la perdita più bassa.

Una scoperta straordinaria della ricerca è la relazione sinergica tra i budget. Il solo aumento del budget per la privacy produce rendimenti decrescenti sul rapporto noise-batch a meno che non sia accompagnato da espansioni nel calcolo (misurato in operazioni in virgola mobile, o FLOP) o nei dati (token). Le visualizzazioni dello studio illustrano come cambiano le configurazioni ottimali: con vincoli di privacy più rigorosi, le risorse potrebbero favorire batch di dimensioni maggiori rispetto a modelli più grandi, mentre più iterazioni potrebbero essere preferibili in scenari con dati limitati. In particolare, l’analisi rivela flessibilità nelle configurazioni; una gamma di dimensioni del modello può fornire un’utilità comparabile se abbinata a dimensioni batch e iterazioni ottimizzate.

Le indicazioni pratiche emergono chiaramente: per la formazione DP, gli operatori dovrebbero optare per modelli più piccoli con dimensioni dei lotti sostanzialmente più grandi rispetto alle linee di base non DP. Ciò è in linea con l’esperienza DP che enfatizza i grandi lotti per contrastare gli effetti del rumore. Tuttavia, le configurazioni variano a seconda della privacy e dei budget per i dati, sottolineando la necessità di un’allocazione giudiziosa delle risorse. Queste informazioni, dettagliate nel documento completo, consentono agli sviluppatori di bilanciare in modo efficiente privacy e prestazioni.

Sfruttando questa struttura, il team ha costruito VaultGemma, un modello da 1 miliardo di parametri basato su Gemma 2, rinomato per la sua enfasi sulla responsabilità e sulla sicurezza. Le leggi di dimensionamento hanno guidato i requisiti di calcolo e l’allocazione tra dimensioni del batch, iterazioni e lunghezza della sequenza per massimizzare l’utilità. Un’innovazione algoritmica chiave ha riguardato il campionamento di Poisson, essenziale per garanzie DP ottimali nella discesa del gradiente stocastico (DP-SGD). Il batch uniforme iniziale è stato sostituito con il campionamento Poisson per ridurre al minimo il rumore garantendo allo stesso tempo una solida privacy. Ciò ha introdotto sfide come dimensioni variabili dei batch e ordinamento casuale dei dati, risolte tramite DP-SGD scalabile. Questo metodo consente lotti di dimensioni fisse tramite riempimento o ritaglio, preservando la privacy senza compromettere l’efficienza.

VaultGemma è il più grande LLM open source completamente pre-addestrato con DP, con i suoi pesi ora disponibili su Hugging Face e Kaggle, accompagnati da un rapporto tecnico completo. La validazione delle leggi di scala si è rivelata straordinariamente accurata; la perdita di addestramento finale del modello si allineava strettamente con le previsioni, affermando l’affidabilità del quadro per i futuri sforzi di intelligenza artificiale privata.

Le valutazioni delle prestazioni posizionano VaultGemma in modo competitivo. Raggiunge un’utilità paragonabile al modello non privato Gemma 3 1B e alla vecchia linea di base GPT-2 1.5B. Ciò dimostra che le tecniche DP contemporanee possono replicare le capacità dei modelli non privati ​​da circa cinque annifa, quantificando il premio per la privacy in termini di risorse. I benchmark downstream lo confermano ulteriormente: su attività come HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC-C e ARC-E, VaultGemma corrisponde alla sua controparte non privata e supera la linea di base GPT-2 di scala simile. Questi risultati evidenziano progressi nel colmare il divario di utilità, anche se le sfide persistono.

Le tutele della privacy sono valide sia teoricamente che verificate empiricamente. VaultGemma offre DP a livello di sequenza con ε ≤ 2,0 e δ ≤ 1,1 × 10⁻¹⁰ per sequenze di 1.024 token provenienti da origini dati eterogenee, rispecchiando la miscela di addestramento Gemma 2. I documenti lunghi vengono suddivisi in sequenze, mentre quelli più brevi vengono impacchettati, fornendo un’unità naturale per la privacy in dati diversi. In pratica, ciò garantisce che se un fatto privato appare in una singola sequenza, l’output del modello rimane statisticamente indistinguibile da uno non addestrato su quella sequenza, cancellando di fatto l’influenza della singola sequenza. Per fatti che si estendono su più sequenze, l’apprendimento è possibile, ma la DP a livello di utente potrebbe migliorare le protezioni negli scenari di dati mappati dall’utente.

I test empirici rafforzano queste garanzie. Richiedere al modello prefissi di 50 token da documenti di formazione non ha suscitato alcuna memorizzazione rilevabile dei suffissi corrispondenti, sottolineando l’efficacia di DP nel limitare la conservazione dei dati.

In conclusione, VaultGemma porta avanti la visione di un’intelligenza artificiale potente e basata sulla privacy fin dalla progettazione. Sebbene permanga un divario di utilità tra i modelli DP e non DP, le nuove leggi di dimensionamento e le innovazioni formative offrono un percorso sistematico per colmarlo. Questa versione consente alla comunità di promuovere un’intelligenza artificiale sicura e responsabile, con la ricerca in corso sui meccanismi DP pronti a ottenere ulteriori risultati.

Il progetto riconosce i contributi dei team Gemma e Google Privacy, incluso il feedback di Peter Kairouz, Brendan McMahan e Dan Ramage sull’annuncio. Le visualizzazioni sono state aiutate da Mark Simborg e Kimberly Schwede, con il supporto dei team di Google su algoritmi, infrastruttura e manutenzione. I contributori diretti includono Borja Balle, Zachary Charles, Christopher A. Choquette-Choo, Lynn Chua, Prem Eruvbetine, Badih Ghazi, Steve He, Yangsibo Huang, Armand Joulin, George Kaissis, Pritish Kamath, Ravi Kumar, Daogao Liu, Ruibo Liu, Pasin Manurangsi, Thomas Mesnard, Andreas Terzis, Tris Warkentin, Da Yu e Chiyuan Zhang.

Questa iniziativa non solo lancia un modello rivoluzionario, ma fornisce anche strumenti fondamentali per scalare l’intelligenza artificiale privata. Mentre le organizzazioni sono alle prese con normative sulla privacy dei dati come il GDPR e gli standard etici emergenti sull’intelligenza artificiale, VaultGemma esemplifica come il rigore matematico possa armonizzare l’innovazione con la protezione. La disponibilità aperta invita alla collaborazione globale, accelerando potenzialmente l’adozione in settori come la sanità, la finanza e i servizi personalizzati in cui la privacy è fondamentale.

Scavando più a fondo nelle leggi di dimensionamento, la ricerca presuppone che il rapporto rumore-batch sia dominante a causa del rumore della privacy che schiaccia la varianza naturale del campionamento. Questa semplificazione vale per tutti gli esperimenti, consentendo previsioni di perdita con alta fedeltà. Ad esempio, con un budget di calcolo fisso di 10 ^ 18 FLOP e un livello di privacy ε = 2, la configurazione ottimale potrebbe comportare un modello da 500 milioni di parametri con dimensioni batch di 4k e iterazioni di 1 milione, producendo una perdita di circa 2,5, molto migliore rispetto alle allocazioni non ottimali.

L’analisi delle sinergie, derivata dalla privacy accounting senza una formazione completa, rivela dinamiche critiche. Il grafico dei benefici marginali mostra che raddoppiando il calcolo (tramite la dimensione del batch) si dimezza il rapporto rumore-batch, migliorando l’utilità in modo equivalente a quadruplicare il budget per la privacy. Ciò sottolinea l’effetto leva del calcolo nei regimi DP, dove il rumore amplifica piccole inefficienze.

Nella formazione di VaultGemma, il team ha mirato all’ottimizzazione del calcolo per parametri 1B, assegnando circa il 60% all’espansione delle dimensioni del batch (a 8k da 1k di non DP), il 30% alle iterazioni (2 milioni in totale) e il 10% a sequenze più lunghe (1024 token). L’integrazione del campionamento di Poisson tramite DP-SGD scalabile ha mantenuto i limiti (ε, δ) durante l’elaborazione dei token 1T, una scala precedentemente scoraggiante per DP.

Le specifiche del benchmark illuminano le prestazioni. Su HellaSwag, VaultGemma ottiene un punteggio di precisione del 72,1%, eguagliando il 72,3% di Gemma 3 e superando il 70,8% di GPT-2. BoolQ vede rispettivamente il 78,5% contro il 78,7% e il 75,2%. PIQA: 74,2% contro 74,5% e 71,9%; SocialIQA: 68,4% contro 68,6% e 65,1%; CuriositàQA: 52,3% contro 52,5% e 48,7%; ARC-C: 45,6% contro 45,8% e 42,1%; ARC-E: 82,1% contro 82,3% e 79,5%. Queste quasi parità tra il buon senso, il QA e le attività di ragionamento confermano la fattibilità di DP per ampie applicazioni.

La garanzia a livello di sequenza si adatta alla combinazione di documenti confezionati, ma il rapporto rileva estensioni a livello di utente tramite contabili avanzati. I test empirici hanno coinvolto 1.000 prefissi casuali; zero suffissi corrispondevano oltre ogni probabilità (p<0,01), contrastando le linee di base non DP che mostravano un ricordo del 5-10%.

Implicazioni più ampie si estendono all’intelligenza artificiale aziendale. Con DP, modelli come VaultGemma consente l’apprendimento federato su dati sensibili senza centralizzazione, rispettando le leggi pur mantenendo l’espressività. L’utilità che corrisponde alla tecnologia non DP di cinque anni segnala una rapida maturazione; le proiezioni suggeriscono la parità con gli attuali valori di riferimento entro 2-3 anni attraverso leggi perfezionate.

Rimangono sfide, compreso l’impatto del rumore sull’apprendimento a lungo contesto e sulle estensioni multimodali. Tuttavia, la versione di VaultGemma democratizza l’intelligenza artificiale privata, promuovendo innovazioni in chatbot sicuri, analisi anonimizzate e strumenti di ricerca etica. Man mano che l’impronta sociale dell’intelligenza artificiale cresce, tali modelli incentrati sulla privacy saranno indispensabili.