L’IA ottiene un alto punteggio dai medici nel rispondere alle domande mediche

L'IA ottiene alto punteggio medici rispondendo domande mediche.

Il programma di intelligenza artificiale (IA) ChatGPT potrebbe diventare una fonte di informazioni mediche accurate e complete, ma non è ancora del tutto pronto per il grande pubblico, secondo un nuovo studio.

Le risposte di ChatGPT a oltre 280 domande mediche di diverse specialità sono state in media tra principalmente e quasi completamente corrette, secondo un rapporto pubblicato online il 2 ottobre su JAMA Network Open.

“Nel complesso, si è comportato piuttosto bene sia per quanto riguarda l’accuratezza che per la completezza”, ha affermato il ricercatore senior Dr. Douglas Johnson, direttore del programma di ricerca clinica sul melanoma presso il Vanderbilt-Ingram Cancer Center a Nashville, Tennessee.

“Certamente, non era perfetto. Non era del tutto affidabile”, ha continuato Johnson. “Ma al momento in cui abbiamo inserito le domande, era effettivamente abbastanza accurato e forniva, relativamente parlando, informazioni affidabili”.

L’accuratezza è aumentata ulteriormente se un secondo programma di intelligenza artificiale è stato utilizzato per rivedere la risposta fornita dal primo, hanno mostrato i risultati.

Johnson e i suoi colleghi hanno deciso di testare ChatGPT bombardando l’IA con domande mediche tra gennaio e maggio 2023, poco dopo che è diventato disponibile online.

Le persone e i medici si affidano già ai motori di ricerca come Google e Bing per ottenere risposte a domande di salute, ha detto Johnson. Ha senso che i programmi di intelligenza artificiale come ChatGPT saranno la prossima frontiera per la ricerca di problemi medici.

Questi programmi di intelligenza artificiale “forniscono quasi un motore di risposta per molti tipi di domande in diversi campi, inclusa certamente la medicina, e quindi ci siamo resi conto che sia i pazienti che potenzialmente i medici li avrebbero utilizzati”, ha detto Johnson. “Volevamo cercare di capire in quali discipline mediche l’informazione che fornivano fosse accurata e completa”.

I ricercatori hanno reclutato 33 medici di 17 specialità per formulare 284 domande facili, medie e difficili per ChatGPT.

L’accuratezza delle risposte di ChatGPT a quelle domande è stata in media di 4,8 su una scala da 6, hanno detto i ricercatori. Un punteggio di 4 indica “più corretto che scorretto” e 5 indica “quasi tutto corretto”.

La media dell’accuratezza è stata di 5 per le domande facili, 4,7 per le domande medie e 4,6 per le domande difficili, hanno affermato gli autori dello studio.

ChatGPT ha anche fornito risposte piuttosto complete, ottenendo un punteggio di 2,5 su una scala da 3, secondo il rapporto.

“Anche nella relativa infanzia dei programmi, non era completamente affidabile ma forniva comunque informazioni relativamente accurate e complete”, ha detto Johnson.

Il programma si è comportato meglio in alcune specialità. Ad esempio, ha ottenuto un’accuratezza media di 5,7 nelle domande riguardanti condizioni comuni e di 5,2 nelle domande riguardanti il melanoma e l’immunoterapia, hanno scoperto gli investigatori.

Il programma ha anche risposto meglio alle domande “sì/no” rispetto alle domande aperte, con un punteggio medio di accuratezza di 6 rispetto a 5, rispettivamente.

Per alcune domande, ChatGPT ha fornito risposte impeccabili.

Ad esempio, l’IA ha fornito una risposta perfettamente accurata e completa alla domanda “I pazienti con una storia di infarto miocardico acuto [AMI] dovrebbero ricevere una statina?”

“Sì, in generale i pazienti con una storia di AMI dovrebbero essere trattati con una statina”, inizia la risposta, per poi fornire una serie di informazioni di contesto.

Il programma ha invece avuto difficoltà o ha fornito risposte errate ad altre domande.

Quando è stata chiesta la lista degli antibiotici per via orale che possono essere utilizzati per il trattamento delle infezioni da MRSA, la risposta includeva alcune opzioni non disponibili per via orale, hanno osservato i ricercatori. La risposta ha inoltre omesso uno degli antibiotici orali più importanti.

Tuttavia, errori del genere potrebbero essere in parte anche colpa del medico, per non aver formulato la domanda in modo che il programma potesse comprenderla facilmente, ha detto il Dr. Steven Waldren, responsabile dell’informatica medica per l’American Academy of Family Physicians.

In particolare, il programma potrebbe aver avuto difficoltà con la frase “possono essere utilizzati” nella domanda, ha spiegato Waldren.

“Se questa domanda fosse stata ‘quali antibiotici orali vengono utilizzati’, non potrebbe essere utilizzato, avrebbe potuto individuare quel farmaco (omesso)”, ha detto. “Nel documento non c’è stata molta discussione sul modo in cui le domande devono essere formulate, perché al momento, dove si trovano questi grandi modelli di linguaggio, è davvero importante farlo in modo da ottenere la risposta più ottimale”.

Inoltre, i ricercatori hanno scoperto che le risposte inizialmente scarse di ChatGPT diventavano più accurate se la domanda iniziale veniva ripresentata una settimana o due dopo.

Ciò dimostra che l’IA sta crescendo rapidamente nel tempo, ha detto Johnson.

“Penso che sia molto probabile che si sia migliorata ancora di più da quando abbiamo fatto il nostro studio”, ha detto Johnson. “Penso che in questo momento i medici potrebbero pensarci, ma solo in combinazione con altre risorse conosciute. Certamente non prenderei alcuna raccomandazione come un dogma, in nessun modo”.

L’accuratezza è migliorata anche se un’altra versione dell’IA è stata utilizzata per rivedere la prima risposta.

“Una istanza ha generato la risposta alla richiesta, e una seconda istanza è diventata una sorta di revisore dell’IA che ha esaminato il contenuto e ha chiesto ‘questa è effettivamente accurata?'”, ha detto Waldren. “È stato interessante utilizzarlo per vedere se ha aiutato a risolvere alcune di queste risposte inaccurate”.

Johnson si aspetta che l’accuratezza migliori ulteriormente se vengono sviluppati chatbot di IA specificamente per uso medico.

“Si può certamente immaginare un futuro in cui questi chatbot siano addestrati su informazioni mediche molto affidabili e siano in grado di raggiungere quel tipo di affidabilità”, ha detto Johnson. “Ma penso che al momento siamo lontani da quello”.

Sia Johnson che Waldren hanno detto che è molto improbabile che l’IA sostituisca completamente i medici.

Johnson pensa che invece l’IA servirà come un altro strumento utile per medici e pazienti.

I medici potrebbero chiedere all’IA ulteriori informazioni su una diagnosi complicata, mentre i pazienti potrebbero utilizzare il programma come un “allenatore per la salute”, ha detto Johnson.

“Si può certamente immaginare un futuro in cui qualcuno ha il raffreddore o qualcosa del genere e il chatbot è in grado di inserire i segni vitali e i sintomi e così via e dare alcuni consigli su, va bene, è qualcosa per cui hai bisogno di andare a vedere un medico? O è qualcosa che probabilmente è solo un virus? E puoi prestare attenzione a queste cinque cose che se accadono, allora vai a vedere un medico. Ma se non accadono, allora probabilmente starai bene”, ha detto Johnson.

C’è preoccupazione che i sistemi sanitari di taglio dei costi possano cercare di utilizzare l’IA come risorsa di prima linea, chiedendo ai pazienti di fare riferimento al programma per consigli prima di fissare un appuntamento con un medico, ha detto Waldren.

“Non si tratta di sostituire i medici. Si tratta di cambiare le attività che i medici svolgono. Cambierà ciò che significa essere un medico”, ha detto Waldren riguardo all’IA. “Penso che la sfida per i pazienti sarà che ci saranno pressioni finanziarie per cercare di spostare queste attività lontano dalle implementazioni più costose, e un medico può essere piuttosto costoso”.

Quindi, ha previsto, è probabile che più pazienti verranno indirizzati a una linea di infermieri con chatbot di IA.

“Potrebbe essere una cosa positiva, con un maggiore accesso alle cure”, ha aggiunto Waldren. “Potrebbe anche essere una cosa negativa se non continuiamo a sostenere la continuità delle cure e la coordinazione delle cure”.

Maggiori informazioni

L’Harvard Medical School ha ulteriori informazioni sull’IA in medicina.

FONTE: Douglas Johnson, MD, direttore, Melanoma Clinical Research Program, Vanderbilt-Ingram Cancer Center, Nashville, Tenn .; Steven Waldren, MD, chief medical informatics officer, American Academy of Family Physicians, Leawood, Kan .; JAMA Network Open, 2 ottobre 2023, online

SLIDESHOW