In un recente test, ChatGPT-4 si è comportato come un medico esperto nelle valutazioni oculistiche

Man mano che i modelli di apprendimento linguistico (LLM) continuano ad avanzare, crescono anche le domande su come possono apportare benefici alla società in settori come il campo medico.

Uno studio recente della School of Clinical Medicine dell’Università di Cambridge ha scoperto che ChatGPT-4 di OpenAI si è comportato bene in una valutazione oftalmologica quasi quanto gli esperti del settore.

Lo studio pubblicato

Nello studio, pubblicato in PLOS Salute Digitale i ricercatori hanno testato il LLM, il suo predecessore GPT-3.5, PaLM 2 di Google e LLaMA di Meta con 87 domande a scelta multipla. Cinque oftalmologi esperti, tre oftalmologi tirocinanti e due medici junior non specializzati hanno ricevuto lo stesso esame simulato.

Le domande provenivano da un libro di testo per testare i tirocinanti su tutto, dalla sensibilità alla luce alle lesioni. I contenuti non sono disponibili al pubblico, quindi i ricercatori ritengono che i LLM non avrebbero potuto essere addestrati su di essi in precedenza. ChatGPT, dotato di GPT-4 o GPT-3.5, ha avuto tre possibilità di risposta definitiva oppure la sua risposta è stata contrassegnata come nulla.

Risultati sorprendenti

Ebbene, ChatGPT-4 ha ottenuto punteggi più alti rispetto ai tirocinanti e ai medici in formazione, rispondendo correttamente a 60 delle 87 domande. Anche se questo valore è stato significativamente superiore alla media di 37 risposte corrette dei medici in formazione, ha superato la media di 59,7 dei tre tirocinanti.

Mentre un oculista esperto ha risposto in modo accurato solo a 56 domande, i cinque hanno ottenuto un punteggio medio di 66,4 risposte esatte, battendo la macchina. PALM2 ha segnato un 49 e GPT-3.5 ha segnato un 42. LLaMa ha ottenuto il punteggio più basso con 28, scendendo al di sotto dei medici junior.

Sebbene questi risultati presentino potenziali benefici, ci sono anche alcuni rischi e preoccupazioni. I ricercatori hanno notato che lo studio offriva un numero limitato di domande, soprattutto in alcune categorie, il che significa che i risultati effettivi potrebbero essere diversi. Anche gli LLM hanno la tendenza a “avere allucinazioni” o inventare cose. Questa è una cosa se è un fatto irrilevante, ma affermare che c’è una cataratta o un cancro è un’altra storia. Come nel caso di molti casi di utilizzo del LLM, anche i sistemi mancano di sfumature, creando ulteriori opportunità di imprecisione.