ChatGPT 4.0 di OpenAI ha risposto correttamente all’85% delle domande in un esame di neurologia clinica, superando il punteggio medio umano del 73,8%. Questo risultato in uno studio proof-of-concept indica il potenziale dell’intelligenza artificiale nella neurologia clinica. Lo studio, condotto da ricercatori dell’Ospedale universitario di Heidelberg e del Centro tedesco per la ricerca sul cancro, ha utilizzato sia ChatGPT 3.5 che ChatGPT 4.0.
Confronto con versioni precedenti e prestazioni umane
Mentre ChatGPT 4.0 ha raggiunto una percentuale di successo dell’85%, ChatGPT 3.5 ha ottenuto il 66,8%. Entrambe le versioni di ChatGPT utilizzavano costantemente un linguaggio sicuro, anche quando non corretto. I risultati suggeriscono che, sebbene ChatGPT possa rispondere con precisione a domande a scelta multipla, non equivale alla capacità di praticare la medicina clinica o di prendere decisioni cliniche.
Ancora più debole nel pensiero di ordine superiore
La ricerca ha coinvolto una banca di domande dell’American Board of Psychiatry and Neurology (ABPN) e dell’European Board for Neurology. Le prestazioni di ChatGPT hanno evidenziato la sua forza nelle categorie comportamentali, cognitive e psicologiche, ma hanno mostrato prestazioni più deboli nei compiti che richiedono un pensiero di ordine superiore rispetto ai compiti di pensiero di ordine inferiore. Lo studio ha utilizzato domande che valutavano sia la comprensione di base che la capacità di applicare, analizzare o valutare le informazioni.
Ricercatori: prestare attenzione
I risultati lo suggeriscono modelli linguistici di grandi dimensioni come ChatGPT potrebbero avere applicazioni significative in neurologia clinica, con ulteriori affinamenti. Tuttavia, i ricercatori mettono in guardia dal fare eccessivo affidamento su questi modelli per compiti cognitivi di alto ordine. È anche importante notare che i modelli sono stati addestrati su estesi dati di testo ma non avevano funzionalità di ricerca su Internet. Gli esperti sottolineano che qualsiasi applicazione della tecnologia dei trasformatori in contesti clinici o educativi richiede un’attenta convalida umana e un controllo dei fatti.
Source: ChatGPT dimostra competenza nell’esame di neurologia