ChatGPT reagiert besser auf Patientenfragen
Die Untersuchung verglich schriftliche Antworten von Ärzten mit denen von ChatGPT auf reale Gesundheitsfragen aus einem Online-Forum. Um eine große und vielfältige Stichprobe von Gesundheitsfragen und Antworten von Ärzten zu erhalten – ohne identifizierbare persönliche Informationen –, wandte sich das Team der University of California San Diego an das Forum „AskDocs“ von Reddit.
AskDocs ist ein Forum mit etwa 452.000 Mitgliedern, wo medizinische Fragen von verifizierten medizinischen Fachkräften beantwortet werden. Moderatoren überprüfen dabei die Anmeldeinformationen des medizinischen Fachpersonals. Das Ergebnis sei eine umfassende, vielfältige Reihe medizinischer Patientenfragen und begleitender Antworten von lizenzierten medizinischen Fachkräften, schreiben die AutorInnen.
ChatGPT ist dreimal informativer und zehnmal empathischer
Die Forschenden untersuchten 195 zufällig ausgewählte Chatverläufe von AskDocs, bei denen ein verifizierter Arzt auf eine öffentliche Frage geantwortet hatte. 182 dieser Austausche bestanden aus einer einzigen Frage und einer einzigen Antwort. In den verbleibenden 13 Fällen verfassten die Ärzte zwei separaten Antworten. Das Team stellte ChatGPT daraufhin dieselbe Frage und dokumentierte dessen Antwort. Anschließend verglich ein Gremium aus drei zugelassenen Gesundheitsfachkräften (Pädiatrie, Geriatrie und Innere Medizin) die Informationsqualität und die Empathie der verblindeten Antworten.
Unter Verwendung von fünfstufigen Likert-Skalen beurteilten die Bewerter sowohl die Qualität der bereitgestellten Informationen (in den Abstufungen „sehr schlecht“, „schlecht“, „akzeptabel“, „gut“ oder „sehr gut“) als auch das Einfühlungsvermögen und die Haltung der Antworten (in den Abstufungen „nicht einfühlsam“, „leicht empathisch“, „mäßig empathisch“, „empathisch“ und „sehr empathisch“). Übersetzt wurden die möglichen Antworten in eine Skala von 1 bis 5, wobei die höheren Werte eine höhere Qualität anzeigen. Die von den Bewertern vergebenen Punktzahlen wurden anschließend für jede untersuchte Antwort gemittelt.
Ergebnis: Bei knapp 79 Prozent der 585 Bewertungen zogen die Bewerter die Chatbot-Antwort den ärztlichen Antworten vor. Dabei war der Anteil der Antworten mit als „gut“ oder „sehr gut“ empfundener Qualität beim Chatbot höher als bei ÄrztInnen (ÄrztInnen: 22,1 Prozent; 16,4 bis 28,2 Prozent; Chatbot: 78,5 Prozent; 72,3 bis 84,1 Prozent). Gleichzeitig bewertete das Gremium die Antworten der Künstlichen Intelligenz fast zehnmal häufiger als „empathisch“ oder „sehr empathisch“ als die Antworten der ÄrztInnen (ÄrztInnen: 4,6 Prozent; 2,1 bis 7,7 Prozent; Chatbot: 45,1 Prozent; 38,5 bis 51,8 Prozent).
Die Technik könnte helfen bei der Patientenkommunikation
„Unsere Studie gehört zu den ersten, die zeigt, wie KI-Assistenten potenziell Probleme bei der Gesundheitsversorgung in der realen Welt lösen können“, sagt Co-Autor Christopher Longhurst. „Diese Ergebnisse deuten darauf hin, dass Tools wie ChatGPT effizient qualitativ hochwertige, personalisierte medizinische Ratschläge zur Überprüfung durch Kliniker erstellen können.“ Ein Prozess, der nach Loghursts Aussage nun an der University of California San Diego gestartet wird. Mark Dredze, Co-Autor von der Johns Hopkins University in Baltimore, Maryland, beschreibt eine weitere Anwendungsmöglichkeit: „Wir könnten diese Technologien nutzen, um Ärzte in patientenzentrierter Kommunikation zu schulen.“
Wie KI in den USA die Patientenkommunikation verändert
Während die Studie der Universität San Diego ChatGPT gegen Ärzte antreten ließ, sieht das Forschungsteam eigentlich keine Konkurrenz zwischen Künstlicher Intelligenz (KI) und ÄrztInnen. Vielmehr berge die Technik viel Potenzial, MedizinerInnen zu entlasten. Co-Autor Dr. Adam Poliak ist sich sicher, dass eine Ärztin oder ein Arzt, der ChatGPT richtig nutzt, auf Patientenanfragen bessere und einfühlsamere Antworten geben kann.
Laut dem US-Onlineportal Forbes ist generative KI in Pilotprojekten bereits in vielen Gesundheitseinrichtungen im Einsatz. Bisher helfe die Technik vor allem bei der Verarbeitung, Digitalisierung und Speicherung von Arzt-Patienten-Gesprächen sowie von ärztlichen Aufzeichnungen und Dokumentationen, heißt es. Die University of Kansas nutzt etwa seit Kurzem eine Anwendung, die 1.500 ÄrztInnen automatische schriftliche Zusammenfassungen von aufgezeichneten Arzt-Patienten-Gesprächen liefert. Auch andere Softwarehersteller haben Lösungen zum Bürokratieabbau gefunden, zum Beispiel DocsGPT.com, das ÄrztInnen Briefe an Versicherungsunternehmen vorschreibt und nach einer Freigabe automatisch übermittelt.
Der führende Anbieter von elektronischen Patientenakten in den USA, EPIC, hat im Übrigen bereits mit GPT-4 experimentiert, das ChatGPT zugrunde liegt. Es könne zum Einsatz kommen, „um Ärzten und Krankenschwestern dabei zu helfen, weniger Zeit an der Tastatur zu verbringen und Daten auf dialogorientierte, benutzerfreundlichere Weise zu durchsuchen".
EPIC und Microsoft wollen jetzt die KI „Azure OpenAI“ mit der EPIC-Software für elektronische Gesundheitsakten zusammenführen, mit dem Ziel, den starken Kosten- und Margendruck in Krankenhäusern zu drosseln. „Ungefähr die Hälfte der US-Krankenhäuser beendete das Jahr 2022 mit negativen Margen, da weit verbreiteter Personalmangel und gestiegene Arbeitskosten sowie Lieferunterbrechungen und Inflationseffekte dazu führten, dass die Ausgaben die Umsatzsteigerungen deutlich übertrafen“, meldet Microsoft. Langfristige finanzielle Nachhaltigkeit könne nur „durch höhere Produktivität erreicht werden“. Darum sei „technologische Effizienz eine unternehmenskritische strategische Priorität“.
Als Haupteinschränkung ihrer Studie benennen die AutorInnen die Datenquelle. Der Nachrichtenaustausch des Online-Forums spiegele möglicherweise nicht die typischen Patienten-Arzt-Fragen wider, schreiben sie. „Zum Beispiel haben wir nur die isolierte Beantwortung von Fragen untersucht, während tatsächliche Ärzte Antworten auf der Grundlage etablierter Patienten-Arzt-Beziehungen bilden können.“ Sie wüssten weder, inwieweit die Antworten der Ärzte dieses Maß an Personalisierung beinhalten, noch hätten sie die Fähigkeit des Chatbots bewertet, ähnliche Details bereitzustellen, die aus der elektronischen Patientenakte extrahiert wurden. Dazu sei weitere Forschung nötig.
Die Studie:
Ayers JW, Poliak A, Dredze M, et al.: Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum. JAMA Intern Med. Published online April 28, 2023. doi:10.1001/jamainternmed.2023.1838