ChatGPT allein stellt genauere Diagnosen als Ärzte mit Unterstützung
Die randomisierte klinische Einzelblindstudie wurde vom 29. November bis zum 29. Dezember 2023 durchgeführt. Über Videokonferenzen und persönliche Teilnahme an mehreren akademischen medizinischen Einrichtungen wurden Ärzte mit einer Ausbildung in Allgemeinmedizin, Innerer Medizin oder Notfallmedizin rekrutiert. Die Teilnehmer wurden nach dem Zufallsprinzip ausgewählt und erhielten entweder zusätzlich zu den konventionellen diagnostischen Ressourcen Zugang zum Lange Language Model (LLM) ChatGPT oder nur zu den konventionellen Ressourcen. Die Teilnehmenden hatten 60 Minuten Zeit, um sich bis zu sechs klinische Fallvignetten anzusehen.
Das primäre Ergebnis war die Bewertung der diagnostischen Leistung, anhand der Genauigkeit der Differentialdiagnose, der Angemessenheit der unterstützenden und gegensätzlichen Faktoren und den nächsten diagnostischen Auswertungsschritten beruhte und durch verblindeten Expertenkonsens validiert und benotet wurde. Zu den sekundären Ergebnissen gehörten der Zeitaufwand pro Fall in Sekunden und die Genauigkeit der endgültigen Diagnose. Alle Analysen erfolgten nach dem Intention-to-treat-Prinzip. Eine sekundäre explorative Analyse bewertete die eigenständige Leistung des Chatbots, indem sie die primären Ergebnisse zwischen der Gruppe mit ChatGPT allein und der Gruppe mit konventionellen Ressourcen verglich.
Ärzte mit ChatGPT-Hilfe stellen 76 Prozent genaue Diagnosen – ChatGPT allein erreicht 92 Prozent
Fünfzig Ärzte (26 Oberärzte, 24 Assistenzärzte; mediane Berufserfahrung drei Jahre [Spreizung zwei bis acht Jahre]) nahmen sowohl virtuell als auch an einem Standort persönlich teil. Der Medianwert der diagnostischen Güte pro Fall lag bei 76 Prozent (Spreizung 66 bis 87 Prozent) für die Gruppe mit Chatbotunterstützung und bei 74 Prozent (63 bis 84 Prozent) für die Gruppe, die nur konventionelle Ressourcen verwendete. Der mittlere Zeitaufwand pro Fall betrug für die LLM-Gruppe 519 (371 bis 668) Sekunden, verglichen mit 565 (456 bis 788) Sekunden für die Gruppe mit konventionellen Ressourcen. Überraschend: ChatGPT allein erreichte im Median eine diagnostischen Güte von 92 Prozent (Spreizung 82 bis 97 Prozent).
Das kontraintuitive Ergebnis deutet darauf hin, dass Ärzte diese Art von KI-Tools noch besser erlernen und nutzen können, schreiben die Forschenden. Bei effektivem Training und klinischer Integration glauben sie, dass groß angelegte Sprachmodelle im Gesundheitswesen letztlich den Patienten zugutekommen könnten.
Forschende sehen „leistungsfähiges Werkzeug für die medizinische Diagnose“
„Unsere Studie zeigt, dass ChatGPT das Potenzial hat, ein leistungsfähiges Werkzeug für die medizinische Diagnose zu sein. Daher waren wir überrascht, dass seine Verfügbarkeit für Ärzte die klinische Argumentation nicht signifikant verbessert hat“, sagt Co-Autor Ethan Goh. „Die Ergebnisse deuten darauf hin, dass es Möglichkeiten gibt, die Zusammenarbeit zwischen Ärzten und KI in der klinischen Praxis und allgemein im Gesundheitswesen weiter zu verbessern.“
Es sei gut möglich, dass eine Person, sobald sie das Gefühl hat, eine Diagnose zu haben, keine Zeit für weitere Erklärungen verschwendet, fügte Hauptautor Jonathan H. Chen hinzu. „Es gibt auch das Phänomen, dass menschliche Experten selbst nicht genau erklären können, warum sie die richtigen Entscheidungen getroffen haben.“
Die Vision: Der Mensch bleibt Vermittler und Behandelnder
Die Forschenden betonen, dass die Verwendung von ChatGPT eine wertvolle Zeitersparnis bringt: „Obwohl der Zugang zu ChatGPT die Diagnosegenauigkeit für Ärzte nicht verbessert hat, haben sie ihre (...) Fallbewertungen im Durchschnitt mehr als eine Minute schneller abgeschlossen als die Ärzte ohne ChatGPT als Hilfe.“ Allein diese Zeitersparnis könnte die Verwendung großer Sprachmodelle rechtfertigen und langfristig zu weniger Burn-out bei Ärzte führen, sagt Goh.
Im Mittelpunkt aller klinischen Anwendungen müsse aber die Patientensicherheit stehen, stellen die Autoren fest. Es müsse immer sichergestellt sein, „dass KI-Antworten überprüft und nicht als endgültiges Diagnoseurteil behandelt werden“, raten sie. Patienten würden zudem weiterhin den einen vertrauenswürdigen menschlichen Fachmann als Vermittler ihrer Diagnose erwarten. „KI ersetzt Ärzte nicht“, sagt Goh. „Menschliche Ärzte kümmern sich um die Behandlungsseite der Dinge, und die Hoffnung ist, dass KI-Tools ihnen helfen können, ihre Arbeit noch besser zu erfüllen.“
Goh E, Gallo R, Hom J et al., Influence of a Large Language Model on Diagnostic Reasoning: A Randomized Clinical Vignette Study. medRxiv [Preprint]. 2024 Mar 14:2024.03.12.24303785. doi: 10.1101/2024.03.12.24303785. Update in: JAMA Netw Open. 2024 Oct 1;7(10):e2440969. doi: 10.1001/jamanetworkopen.2024.40969. PMID: 38559045; PMCID: PMC10980135.