Passt ein guter Arzt bald in die Hosentasche?
Das System AMIE (Articulate Medical Intelligence Explorer) verwendet eine neuartige, simulierte Umgebung mit automatisierten Feedbacks, um das Lernen über Krankheitszustände, Fachgebiete und Kontexte hinweg zu skalieren, erläutern die Forschenden in ihrem Preprint, über das auch das Wissenschaftsmagazin Nature berichtet. Das System wurde unter Verwendung vieler Datensätze aus der realen Welt entwickelt, darunter Multiple-Choice-Antworten auf medizinische Fragen, von Experten kuratierte medizinische Langform-Argumentationen, Zusammenfassungen von Notizen aus elektronischen Patientenakten und transkribierten Arzt-Patienten-Gesprächen.
Konkret wurde zum Training des „medizinischen Denkens“ der KI ein Satz aus 11.450 Multiple-Choice-Fragen des US-amerikanischen Medical Licensing Examination-Systems mit vier oder fünf möglichen Antworten verwendet. Zum Erlernen ausführlicher Antworten wurde die KI auch mit einem Datensatz gespeist, der von 65 Ärzten verfasste Zusammenfassungen medizinischer Notizen sowie eine große, öffentlich zugängliche Datenbank mit Krankenakten von Patienten auf der Intensivstation enthielt. Der Datensatz umfasste etwa 2 Millionen Notizen aus 13 Bereichen, darunter Kardiologie, Pneumologie, Radiologie, Allgemeinmedizin, aber auch Entlass- und Fallmanagement, Beratung, Krankenpflege, Pharmazie, Ernährung, Rehabilitation und Sozialarbeit.
Die KI wurde in „medizinischem Denken“ geschult
Um die Dialogfähigkeiten der KI zu schulen, verwendeten de Forschenden einen anonymisierten US-Datensatz aus 98.919 Audiotranskripten von medizinischen Gesprächen während persönlicher Besuche bei mehr als 1.000 Klinikern. Die Daten bildeten einen Zeitraum von zehn Jahren ab und umfassten 51 medizinische Fachgebiete (etwa Primärversorgung, Rheumatologie, Hämatologie, Onkologie, Innere Medizin und Psychiatrie), 168 Erkrankungen und Besuchsgründe. Die Audiotranskripte enthielten Äußerungen von Ärzten, Patienten und Krankenschwestern.
Für jedes Gespräch gab es Metadaten über die Demografie des Patienten, den Grund für den Besuch (Nachsorge bei Vorerkrankungen, akuten Bedürfnissen, jährliche Untersuchung und mehr) sowie die Art der Diagnose.
Um Limitationen der Rohdaten auszugleichen, schufen die Forschenden eine simulierte Lernumgebung für diagnostische medizinische Dialoge."Wir nutzten diese Umgebung, um AMIE iterativ mit einem sich entwickelnden Satz simulierter Dialoge zu optimieren“, schreiben sie. So sei ein Skillset entstanden, das weit über den statischen Korpus aus medizinischen Frage-Antwort-, Argumentations-, Zusammenfassungs- und Dialogdaten hinausreicht.
Die KI wurde in Kanada, Großbritannien und Indien getestet
Getestet wurde das System in 149 Fallszenarien von klinischen Anbietern in Kanada, Großbritannien und Indien. Dazu führten jeweils ein Hausarzt und AMIE in randomisierter Reihenfolge eine virtuelle objektive strukturierte klinische Untersuchung (OSCE) eines Schauspielpatienten über einen synchronen Online-Text-Chat durch. Anschließend wurden die Chatverläufe und Dokumentationen von Fachärzten und die Konsultationen von den Patienten bewertet. Sowohl die Hausärzte als auch die Simulationspatienten hatten vorab anhand von Beispielszenarien und Anweisungen die Möglichkeit, sich auf die Chat-Tools vorzubereiten.
Die Schauspieler-Patienten wurden nicht darüber informiert, mit wem sie in der Konsultation sprachen. Die Hausärzte wurden nach dem Zufallsprinzip auf der Grundlage der Verfügbarkeit ausgewählt. Die Schauspieler spielten das Szenario durch und wurden angewiesen, das Gespräch nach spätestens 20 zu beenden.
Um die Qualität der Expertise in der Anamnese, einschließlich der Kommunikationsfähigkeiten in der Konsultation zu beschreiben, leiteten sie einen Bewertungsrahmen aus Standards ab und führten Interviews mit Klinikern und Prüfern in Großbritannien, Kanada, den USA und Indien. Der daraus resultierende Rahmen ermöglichte die Bewertung sowohl aus Perspektive von Klinikern als auch Patienten.
Die KI stellt die bessere Diagnose – und ist empathischer
Ergebnis: Die KI zeigte nach Angaben von 23 prüfenden Fachärzten eine höhere diagnostische Genauigkeit und „überlegene Leistung“ bei 28 von 32 Bewertungskriterien, dazu gehörten die Genauigkeit, Angemessenheit und Vollständigkeit der Anamnese, Erklärung relevanter klinischer Informationen und Umgang mit Patientenbedenken. Patienten bewerteten die KI in 24 von 26 Punkten höher. Dazu zählten etwa Parameter wie die Offenheit, Vertrauenswürdigkeit und Freundlichkeit des Gegenübers. Die Gesprächspartner der KI fühlten sich mehr wertgeschätzt und hatten eine größeres Vertrauen in die Diagnose und Therapieplanung.
Allerdings hat die Studie laut den Autoren entscheidende Einschränkungen, vor allem, weil eine Text-Chat-Schnittstelle verwendet wurde, die zwar eine potenziell groß angelegte Interaktion zwischen Patienten und der KI ermöglicht, den getesteten Ärzten für Fernkonsultationen aber wenig geläufig war. „Unsere Forschung sollte mit angemessener Vorsicht interpretiert werden. Die Kliniker waren auf einen ungewohnten synchronen Text-Chat beschränkt, der nicht repräsentativ für die übliche klinische Praxis ist.“ Obwohl weitere Forschung erforderlich sei, bevor AMIE in reale Umgebungen übertragen werden kann, stellten die Ergebnisse trotzdem „einen Meilenstein auf dem Weg zu einer dialogdiagnostischen KI dar".
T Tu, A Palepu, M Schaekermann et al., Towards Conversational Diagnostic AI, arXiv preprint, Submitted 11. Januar 2024, arxiv.org/abs/2401.05654