Eignen sich KI-Chatbots fürs Krankenhaus?

350596-flexible-1900 — Könnten Large Language Models in einer Notaufnahme anhand von Krankheitssymptomen die richtigen Tests anordnen und am Ende eine korrekte Diagnose stellen? Und das vielleicht sogar besser als „echte“ Ärztinnen und Ärzte? N F/peopleimages.com - stock.adobe.com

16.08.2024

Gesellschaft

Large Language Models bestehen medizinische Examen mit Bravour – gelernt ist gelernt. Doch könnten sie auch in einer Notaufnahme anhand von Krankheitssymptomen die richtigen Tests anordnen und am Ende eine korrekte Diagnose stellen, also das Gelernte nicht nur reproduzieren, sondern auch situationsabhängig anwenden? Um das herauszufinden, haben Forschende der Technischen Universität München (TUM) einen Test mit realen Patientendaten entwickelt.

Medizin-Chatbots treffen vorschnelle Diagnosen, halten sich nicht an Richtlinien und würden das Leben von Patientinnen und Patienten gefährden. Zu diesem Schluss kommt das Team der TUM, das erstmals systematisch untersucht hat, ob diese Form der Künstlichen Intelligenz (KI) für den Klinikalltag geeignet wäre. Die Forschenden sehen dennoch Potenzial in der Technologie. Sie haben ein Verfahren veröffentlicht, mit dem sich die Zuverlässigkeit zukünftiger Medizin-Chatbots testen lässt.

Large Language Models (LLM) sind Computerprogramme, die mit riesigen Mengen Text trainiert wurden. Speziell trainierte Varianten der Technologie, die auch hinter ChatGPT stecken, lösen mittlerweile sogar Abschlussexamen aus dem (Zahn-)Medizinstudium nahezu fehlerfrei (zm 10/2024). Wäre eine solche KI auch in der Lage, die Aufgaben von Ärztinnen und Ärzten in einer Notaufnahme zu übernehmen? Könnte sie anhand der Beschwerden die passenden Tests anordnen, die richtige Diagnose stellen und einen Behandlungsplan entwerfen? Im Fachmagazin Nature Medicine hat sich ein interdisziplinäres Team um Prof. Daniel Rückert dieser Fragestellung gewidmet.

Die Datenbasis: 2.400-mal Bauchschmerzen

Das aus Ärztinnen, Ärzten und KI-Fachleuten zusammengesetzte Team untersuchte konkret, wie erfolgreich verschiedene Varianten des Open-Source-Large-Language-Models Llama 2 bei der Diagnose sind. Um die Fähigkeiten der komplexen Algorithmen zu testen, nutzten die Forschenden anonymisierte Daten von Patientinnen und Patienten aus einer Klinik in den USA. Aus einem größeren Datensatz wählten sie 2.400 Fälle aus, alle Betroffenen waren mit Bauchschmerzen in die Notaufnahme gekommen. Die Fallbeschreibung endete jeweils mit einer von vier Diagnosen und einem Behandlungsplan. Zu den Fällen waren alle Daten verfügbar, die für die Diagnose erfasst wurden – von der Krankengeschichte über die Blutwerte bis zu den Bildgebungsdaten.

„Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten“, erläutert Friederike Jungmann, Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM und gemeinsam mit dem Informatiker Paul Hager Erstautorin der Studie. „Das Programm hatte immer nur die Informationen, die auch die realen Ärztinnen und Ärzte hatten. Ob es beispielsweise ein Blutbild in Auftrag gibt, muss es selbst entscheiden und dann mit dieser Information die nächste Entscheidung treffen, bis es schließlich eine Diagnose und einen Behandlungsplan erstellt.“

Als Ergebnis stellte das Team fest, dass keines der LLM durchgängig alle notwendigen Untersuchungen einforderte. Gleichzeitig wurden die Diagnosen der Programme kurioserweise weniger zutreffend, je mehr Informationen sie zu dem Fall hatten. Behandlungsrichtlinien befolgten sie oftmals nicht. Als Konsequenz ordnete die KI beispielsweise Untersuchungen an, die für echte Patientinnen und Patienten schwere gesundheitliche Folgen nach sich gezogen hätten.

Die echten Ärztinnen und Ärzte lagen häufiger richtig

In einem zweiten Teil der Studie wurden (bei einem kleineren Datensatz) die KI-Diagnosen mit den Diagnosen von vier Ärztinnen und Ärzten verglichen. Während jene bei 89 Prozent der Diagnosen richtig lagen, kam das beste LLM auf gerade einmal 73 Prozent. Jedes Modell erkannte manche Erkrankungen besser als andere. In einem Extremfall diagnostizierte ein Modell Gallenblasenentzündungen nur in 13 Prozent der Fälle korrekt.

Ein weiteres Problem, das die Programme für den Einsatz im Alltag disqualifiziert, ist ein Mangel an Robustheit, relevante von irrelevanten Daten zu unterscheiden: Welche Diagnose ein LLM stellte, hing unter anderem davon ab, in welcher Reihenfolge es die Informationen erhielt. Auch linguistische Feinheiten beeinflussten das Ergebnis – beispielsweise ob das Programm um eine „Main Diagnosis“, eine „Primary Diagnosis“ oder eine „Final Diagnosis“ gebeten wurde. Im Klinikalltag sind die Begriffe in der Regel austauschbar.

Die Schwächen von ChatGPT

US-Forschende haben ChatGPT-4V bildbasierten Diagnoseaufgaben des New England Journal of Medicine unterzogen. Ziel war es, eine umfassende Analyse des Bildverständnisses der dahinterliegenden Künstlichen Intelligenz und deren schrittweiser multimodaler Argumentationen bei der Lösung der Aufgaben zu liefern. Der Test ist ein etabliertes Bild-Quiz, der entwickelt wurde, um das Wissen und die diagnostischen Fähigkeiten von Medizinern zu testen.

Ergebnis: GPT-4V schnitt im Vergleich mit menschlichen Ärzten gut ab und erzielte mehr richtige Antworten (81,6 Prozent vs. 77,8 Prozent). Das Sprachmodell erzielte zudem eine Genauigkeit von 78 Prozent in den Fällen, in denen Ärzte falsch antworteten. Die Forschenden stellten jedoch fest, dass GPT-4V häufig fehlerhafte Gründe selbst in jenen Fällen präsentiert, in denen es die richtigen endgültigen Entscheidungen (35,5 Prozent) trifft. Aus Sicht der Autoren unterstreichen die Ergebnisse – trotz der höheren Genauigkeit – die Notwendigkeit „weiterer tiefer Bewertungen seiner Begründungen, bevor solche multimodalen KI-Modelle in klinische Arbeitsabläufe integriert werden“.

Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine. npj Digit. Med. 7, 190 (2024). <link url="https://www.nature.com/articles/s41746-024-01185-7" target="new-window" url-fragment="" seo-title="" follow="follow">doi.org/10.1038/s41746-024-01185-7

Das Team hat explizit nicht die kommerziellen LLM von OpenAI (ChatGPT) und Google getestet. Dafür gibt es im Wesentlichen zwei Gründe. Zum einen untersagt der Anbieter der Krankenhausdaten aus Datenschutzgründen, die Daten mit diesen Modellen zur verarbeiten. Zum anderen raten Expertinnen und Experten nachdrücklich, für Anwendungen im Gesundheitssektor ausschließlich Open-Source-Software zu verwenden, teilt die Universität mit.

Doch in naher Zukunft könnten LLM stärker sein

„Nur mit Open-Source-Software haben Krankenhäuser die Informationen und das nötige Maß an Kontrolle, um die Sicherheit der Patientinnen und Patienten zu gewährleisten. Wenn es darum geht, Large Language Models zu bewerten, müssen wir wissen, mit welchen Daten sie trainiert wurden. Sonst könnte es sein, dass wir für die Bewertung genau die Fragen und Antworten verwenden, mit denen sie trainiert wurden. Da Unternehmen die Trainingsdaten streng unter Verschluss halten, würde eine faire Bewertung erschwert”, erklärt Hager. Es sei auch gefährlich, wichtige medizinische Infrastrukturen von externen Dienstleistern abhängig zu machen, die ihre Modelle nach Belieben aktualisieren und ändern können. „Im Extremfall könnte ein Dienst, den Hunderte von Kliniken nutzen, eingestellt werden, weil er nicht mehr rentabel ist.”

Doch die Entwicklung in dieser Technologie verlaufe sehr schnell. So sei es gut möglich, dass in absehbarer Zeit ein LLM besser geeignet ist, aus der Krankengeschichte und den Testergebnissen auf eine Diagnose zu kommen, sagt Rückert. „Wir haben deshalb unsere Testumgebung für alle Forschungsgruppen freigegeben, die Large Language Models für den Klinikkontext testen wollen.“

Die Forschenden sehen aber auch großes Potenzial in der Technologie. So könnten LLM in Zukunft wichtige Werkzeuge für Ärztinnen und Ärzte werden, mit denen sich beispielsweise ein Fall diskutieren lässt. Rückert: „Wir müssen uns aber immer der Grenzen und Eigenheiten dieser Technologie bewusst sein und diese beim Erstellen von Anwendungen berücksichtigen.“

Die Studie:
Hager, P., Jungmann, F., Holland, R. et al.: „Evaluation and mitigation of the limitations of large language models in clinical decision-making“. Nat Med (2024). DOI: 10.1038/s41591-024-03097-1