OpenAI ha sviluppato un nuovo modello basato su GPT-4, CriticGPT, che rappresenta un passo importante verso la valutazione dell’output prodotto da sistemi AI avanzati. Il modello è progettato per rilevare errori nel codice ChatGPT.
La ricerca ha dimostrato che quando le persone esaminano il codice ChatGPT con l’aiuto di CriticGPT, ottengono risultati migliori del 60% rispetto a chi non riceve aiuto. OpenAI mira a fornire supporto di intelligenza artificiale ai formatori integrando modelli simili nel processo di etichettatura “Reinforcement Learning from Human Feedback” (RLHF). Quindi, cos’è questo CriticGPT? Diamo un’occhiata più da vicino.
Cos’è CriticGPT e cosa fa?
CriticGPT svolge un ruolo importante nel processo RLHF. Man mano che le capacità di ragionamento e comportamentali di ChatGPT migliorano, i suoi errori diventano più sottili e più difficili da individuare per i trainer AI e CriticGPT, in quanto modello addestrato a scrivere critiche che evidenziano inesattezze nelle risposte di ChatGPT, aiuta i trainer a individuare problemi nelle risposte create dal modello senza l’aiuto dell’AI. Far sì che le persone utilizzino CriticGPT consente all’AI di aumentare le proprie competenze, portando a critiche e modelli più approfonditi con meno errori allucinatori. Per maggiori informazioni, puoi visitare questo link.
Abbiamo compilato una tabella con alcune delle funzionalità di CriticGPT che hanno attirato la nostra attenzione:
Caratteristica | Descrizione |
Identificazione degli errori | Identifica gli errori nel codice di output di ChatGPT, compresi quelli più sottili. |
Generazione di critica | Genera critiche che evidenziano le inesattezze nelle risposte di ChatGPT. |
Potenziamento umano | Aumenta le competenze degli istruttori umani, producendo critiche più esaustive rispetto a quelle fornite dai soli istruttori umani. |
Allucinazioni ridotte | Crea meno allucinazioni (falsi positivi) e critiche inutili rispetto a ChatGPT. |
Etichettatura RLHF migliorata | Migliora l’efficienza e l’accuratezza dell’etichettatura RLHF fornendo assistenza esplicita tramite intelligenza artificiale. |
Ricerca del tempo di prova | Utilizza la ricerca aggiuntiva del tempo di prova per generare critiche più lunghe e complete. |
Configurazione del compromesso tra precisione e richiamo | Consente di configurare un compromesso tra il tasso di allucinazioni e il numero di bug rilevati. |
La formazione di CriticGPT viene svolta utilizzando il metodo RLHF. Ma a differenza di ChatGPT, CriticGPT vede molti input con errori che poi deve criticare. I formatori di intelligenza artificiale aggiungono manualmente i bug al codice scritto da ChatGPT e quindi scrivono un feedback di esempio come se avessero rilevato il bug che hanno aggiunto. Confrontando più critiche al codice modificato, la stessa persona può facilmente riconoscere quando una critica ha rilevato il bug che ha aggiunto. Gli esperimenti esaminano se CriticGPT rileva bug inseriti e bug ChatGPT “naturali” rilevati da un trainer precedente. Le critiche di CriticGPT sono preferite dagli istruttori rispetto alle critiche di ChatGPT per errori naturali nel 63% dei casi.
CriticGPT presenta anche alcune limitazioni. Il modello viene addestrato su brevi risposte ChatGPT. Per supervisionare compiti più lunghi e complessi in futuro, è necessario sviluppare metodi per aiutare i formatori a comprendere questi compiti. Inoltre, i modelli continuano ad avere allucinazioni e, a volte, gli allenatori commettono errori di etichettatura dopo aver visto queste allucinazioni. In alcuni casi, gli errori del mondo reale possono essere distribuiti in molte parti di una risposta. OpenAI sottolinea la necessità di strumenti migliori per allineare sistemi di intelligenza artificiale sempre più complessi. La ricerca su CriticGPT mostra il potenziale dell’applicazione di RLHF a GPT-4 per aiutare le persone a generare dati RLHF migliori per GPT-4. OpenAI prevede di ampliare ulteriormente questo lavoro e di metterlo in pratica.
Credito immagine in primo piano: IA aperta
Source: OpenAI introduce CriticGPT per il debug del codice generato da ChatGPT