Un nuovo studio pubblicato su Nature Medicine il 24 febbraio ha rilevato che ChatGPT Health, lo strumento sanitario rivolto ai consumatori di OpenAI, non è riuscito a indirizzare adeguatamente gli utenti alle cure di emergenza in più della metà dei casi medici gravi. I ricercatori della Icahn School of Medicine del Monte Sinai hanno progettato 60 scenari clinici che abbracciano 21 specialità mediche, che vanno da condizioni minori adatte per l’assistenza domiciliare a vere e proprie emergenze. Tre medici indipendenti hanno stabilito il corretto livello di urgenza per ciascun caso utilizzando le linee guida di 56 società mediche. Ciascuno scenario è stato poi testato in 16 diverse condizioni contestuali – comprese variazioni di razza, genere, dinamiche sociali e barriere all’assistenza come la mancanza di assicurazione – producendo 960 interazioni totali con ChatGPT Health.

I risultati hanno rivelato un modello di prestazione “a forma di U rovesciata”. Sebbene ChatGPT Health abbia gestito correttamente le emergenze da manuale come ictus e anafilassi, ha sottostimato il 52% dei casi che i medici ritenevano vere emergenze, indirizzando i pazienti con condizioni come chetoacidosi diabetica e imminente insufficienza respiratoria verso una valutazione di 24-48 ore invece che al pronto soccorso. Il sistema ha inoltre classificato erroneamente il 35% dei casi non urgenti.

Particolarmente preoccupante è stata la suscettibilità dello strumento ai bias di ancoraggio: quando i familiari o gli amici minimizzavano i sintomi nei suggerimenti, le raccomandazioni del triage si spostavano drasticamente verso cure meno urgenti, con un odds ratio di 11,7. “ChatGPT Health ha ottenuto buoni risultati nelle emergenze da manuale come ictus o gravi reazioni allergiche”, ha affermato il dottor Ashwin Ramaswamy, uno degli autori corrispondenti dello studio. “Ma ha avuto difficoltà in situazioni più sfumate in cui il pericolo non è immediatamente evidente, e questi sono spesso i casi in cui il giudizio clinico conta di più”.

Lo studio ha anche messo in luce preoccupanti incoerenze nel sistema di intervento in caso di crisi di ChatGPT Health. Lo strumento è stato progettato per indirizzare gli utenti al 988 Suicide and Crisis Lifeline in situazioni ad alto rischio, ma i ricercatori hanno scoperto che questi avvisi apparivano in modo più affidabile quando gli utenti non descrivevano alcun metodo specifico di autolesionismo rispetto a quando articolavano un piano concreto, invertendo di fatto la relazione tra livello di rischio e attivazione della protezione. Il dottor Girish Nadkarni, responsabile dell’intelligenza artificiale del Monte Sinai e altro autore corrispondente dello studio, ha descritto la scoperta come “oltre l’incoerenza”, sottolineando che “gli allarmi del sistema erano invertiti rispetto al rischio clinico”.

I risultati arrivano in un momento di rapida adozione da parte dei consumatori. OpenAI ha lanciato ChatGPT Health nel gennaio 2026 e la società ha riferito che circa 40 milioni di persone utilizzavano ChatGPT quotidianamente per domande relative alla salute. All’inizio di quest’anno, l’organizzazione no-profit per la sicurezza dei pazienti ECRI ha classificato l’uso improprio dei chatbot IA nel settore sanitario come il principale rischio tecnologico sanitario per il 2026, avvertendo che gli strumenti “possono fornire informazioni false o fuorvianti che potrebbero causare danni significativi ai pazienti”.

Il team del Mount Sinai non ha riscontrato effetti statisticamente rilevabili derivanti dalla razza, dal sesso o dagli ostacoli alla cura dei pazienti sugli esiti del triage, sebbene gli intervalli di confidenza dello studio non escludano differenze clinicamente significative. I ricercatori hanno affermato che intendono continuare a valutare le versioni aggiornate di ChatGPT Health e altri strumenti di intelligenza artificiale per i consumatori, con la ricerca futura che si espanderà nell’assistenza pediatrica, nella sicurezza dei farmaci e nell’uso della lingua non inglese.


Credito immagine in primo piano