Incontra le valutazioni OpenAI. Insieme al rilascio di GPT-4, OpenAI ha anche rilasciato un framework software open source per testare l’efficacia dei suoi modelli di intelligenza artificiale.
Il team di OpenAI ha annunciato un nuovo set di strumenti che chiamano Evals che consentirà a chiunque di segnalare problemi con i modelli dell’azienda e apportare modifiche.
stiamo open-sourcing OpenAI Evals, il nostro framework per la valutazione automatizzata delle prestazioni del modello AI, per consentire a chiunque di aiutarci a migliorare i nostri modelli.
— Sam Altman (@sama) 14 marzo 2023
Cosa sono le valutazioni OpenAI?
In un post sul blogOpenAI descrive questa metodologia come un “approccio di crowdsourcing” per convalidare i modelli.
“Utilizziamo Evals per guidare lo sviluppo dei nostri modelli (identificando sia le carenze che prevenendo le regressioni) e i nostri utenti possono applicarlo per monitorare le prestazioni tra le versioni del modello e l’evoluzione delle integrazioni dei prodotti”, scrive OpenAI. “Speriamo che Evals diventi un veicolo per condividere e raccogliere in crowdsourcing i benchmark, rappresentando un insieme estremamente ampio di modalità di errore e compiti difficili”.
-OpenAI
L’obiettivo del progetto Evals di OpenAI è costruire ed eseguire benchmark che possono essere utilizzati per valutare l’efficacia di modelli come GPT-4 attraverso un’attenta analisi delle loro prestazioni. Con Evals, i programmatori possono generare domande utilizzando set di dati, valutare l’accuratezza delle risposte di un modello OpenAI e valutare l’efficacia di vari set di dati e modelli.
Evals non è solo compatibile con le versioni precedenti di diversi ben noti benchmark AI, ma consente anche di creare nuove classi per utilizzare la propria logica di valutazione. Per fungere da punto di riferimento, OpenAI ha progettato una valutazione di enigmi logici con 10 esempi di problemi con cui GPT-4 lotta.
È tutto lavoro di volontariato, il che è un vero peccato. Tuttavia, OpenAI intende fornire l’accesso GPT-4 a persone che forniscono benchmark di “alta qualità” al fine di incoraggiare l’utilizzo di Evals.
“Riteniamo che Evals sarà parte integrante del processo di utilizzo e sviluppo dei nostri modelli e accogliamo con favore contributi diretti, domande e feedback”.
-OpenAI
OpenAI, che ha annunciato che smetterà di utilizzare i dati dei consumatori per addestrare i suoi modelli per impostazione predefinita, si unisce ai ranghi di coloro che si sono rivolti al crowdsourcing per rafforzare i modelli di intelligenza artificiale utilizzando Evals.
Ti piace GPT-4? Dai un’occhiata a questi:
- Confronto prompt di ChatGPT
- GPT-4 contro ChatGPT
Source: Puoi migliorare GPT-4 con OpenAI Evals