Un team di Harvard Medical School e del Beth Israel Deaconess Medical Center ha testato modelli di IA su veri dossier di pronto soccorso, e il risultato scuote le abitudini: su casi reali, un modello ha proposto diagnosi iniziali più accurate di medici esperti.
Lo studio, pubblicato su Science, insiste su un punto: queste prestazioni non significano che l’IA possa prendere da sola decisioni vitali. Il test è stato fatto su informazioni testuali ricavate dalla cartella clinica, senza esame fisico, senza imaging, senza segnali non verbali. È proprio qui che inizia il dibattito, tra promessa di aiuto al triage e rischio di sovrafiducia.
Harvard Medical School testa 76 pazienti del Beth Israel
L’esperimento più commentato riguarda 76 pazienti arrivati al pronto soccorso del Beth Israel a Boston. Due medici attending hanno redatto le proprie ipotesi diagnostiche, mentre modelli di OpenAI facevano lo stesso a partire dalla medesima cartella, tipicamente parametri vitali, età, contesto e qualche riga di un’infermiera sul motivo della visita.
Le diagnosi sono state poi valutate in cieco da altri due medici, senza sapere cosa venisse da un umano o dall’IA. Al primo “touchpoint”, quello del triage in cui l’informazione è più povera e il tempo più contato, il modello o1 ha identificato la diagnosi esatta o molto vicina nel 67% dei casi, contro il 50-55% dei medici testati.
Quando si aggiungevano più elementi nel corso della presa in carico, il divario si riduceva. Le cifre riportate mostrano un’IA all’82% quando la cartella è più completa, contro umani attorno al 70-79%, una differenza descritta come non statisticamente significativa. Lettura possibile: l’IA aiuta soprattutto quando si hanno pochi indizi, non quando tutto è già sul tavolo.
OpenAI o1 progredisce man mano che la cartella si arricchisce
Il lavoro non si ferma al triage. Il team ha annotato la prestazione in più momenti, fino alle decisioni di ricovero. In un’analisi numerica, o1 raggiunge il 72,4% quando si include la valutazione diretta del medico d’urgenza, poi sale all’81,6% nello stadio in cui sono disponibili abbastanza informazioni per decidere ricovero o trasferimento in terapia intensiva.
Un dettaglio metodologico conta, perché aderisce al reale: i ricercatori spiegano di non aver “ripulito” le cartelle. Hanno usato informazioni così come appaiono nel dossier medico, con il loro disordine abituale. Thomas Buckley, co-primo autore, giustifica questa scelta con la volontà di misurare la prestazione all’inizio del percorso, quando i dati sono scarsi e talvolta ambigui.
C’è anche un capitolo “piano di presa in carico” che colpisce forte. Su cinque vignette cliniche, l’IA ha ottenuto l’89% contro il 34% di un gruppo di 46 medici che usavano risorse classiche. Non significa che un reparto possa delegare le prescrizioni a una macchina, ma suggerisce un uso concreto: proporre una check-list di opzioni, individuare un’antibioticoterapia plausibile o segnalare che un protocollo di fine vita va discusso.
Raj Manrai e Adam Rodman avvertono sull’autonomia
Gli autori battono su un limite: tutto poggia sul testo. Eppure in pronto soccorso si diagnostica anche con una radiografia, un ECG, un’auscultazione, una marcia, un odore dell’alito, uno sguardo preoccupato, dei silenzi. I ricercatori notano che i modelli attuali restano più limitati sugli input non testuali, e che questi segnali pesano molto nelle decisioni rapide.
Raj Manrai, professore assistente di informatica biomedica, ammette che il modello ha superato un’ampia base di medici su più compiti, ma rifiuta l’interpretazione “sostituzione”. Adam Rodman, professore assistente di medicina, dice di essere stato sorpreso dal livello raggiunto, ricordando però che il pronto soccorso è solo un frammento del percorso, e che un mese di ricovero con dati abbondanti avrebbe probabilmente cambiato le carte.
La sfumatura è qui, e disturba: buoni punteggi non garantiscono una pratica sicura. Un’IA può essere brillante su una diagnosi rara e fragile su un caso banale mal descritto. In un ospedale, la domanda diventa operativa: chi porta la responsabilità se lo strumento suggerisce una pista e il team la segue? Gli autori invocano trial prospettici in condizioni reali, con paletti, prima di farne un copilota installato al cuore del pronto soccorso.
Fonte: Harvard





