KI kann Fehldiagnosen nicht verhindern
Bis zu 15 Prozent aller Patientinnen und Patienten, die eine medizinische Behandlung in Anspruch nehmen, erhalten eine Fehldiagnose – zeigen zwei Studien [Nemec et al., 2010; Hautz et al., 2019]. Fehldiagnosen gehören damit zu den häufigsten und kostspieligsten medizinischen Problemen weltweit. Besonders herausfordernd ist die Diagnosestellung in Notaufnahmen, wo oft unter großem Zeitdruck eine Vielzahl von Patienten mit unterschiedlichen Beschwerden versorgt werden muss.
Um die Anzahl der Fehldiagnosen zu reduzieren, kommen zunehmend computergestützte diagnostische Entscheidungshilfesysteme (Computerized Diagnostic Decision Support Systems, kurz: CDDSS) zum Einsatz. Diese Systeme sollen durch die Analyse von Symptomen und Befunden die diagnostische Genauigkeit erhöhen und das medizinische Fachpersonal bei der Diagnosestellung unterstützen. Ob Diagnosesysteme, die auf künstlicher Intelligenz (KI) basieren, die Diagnosen tatsächlich verbessern, ist jedoch umstritten. Belastbare Studiendaten aus der klinischen Anwendung sind bislang rar.
Die weltweit erste Untersuchung KI-unterstützter Diagnosen
Ein Forschungsteam unter der Leitung der Universitätsklinik für Notfallmedizin des Inselspitals hat nun weltweit erstmals die Effektivität der KI-basierten Diagnoseunterstützung in der Akutmedizin untersucht. Diese multizentrische, mehrperiodige, doppelblinde, cluster-randomisierte Crossover-Überlegenheitsstudie wurde in vier Notaufnahmen in der Schweiz durchgeführt.
Teilnahmeberechtigt waren Erwachsene (im Alter von ≥18 Jahren), die sich mit Bauchschmerzen, Fieber unbekannter Ursache, Synkope oder unspezifischen Symptomen vorstellten. Die Notaufnahmen wurden nach dem Zufallsprinzip (1:1) einer von zwei vordefinierten Sequenzen von sechs abwechselnden Interventions- oder Kontrollperioden zugewiesen. Patienten, die während der Interventionsphase vorstellig wurden, wurden mithilfe des CDDSS „Isabel Pro“ diagnostiziert, während Patienten, die während der Kontrollphase vorstellig wurden, ohne CDDSS diagnostiziert wurden, was die übliche Versorgung darstellt.
Die Patienten und das Personal, das die Ergebnisse beurteilte, waren hinsichtlich der Gruppenzuordnung maskiert, die behandelnden Ärzte nicht. Das primäre binäre Ergebnis (falsch oder richtig) war ein zusammengesetzter Score, der das Risiko einer verminderten diagnostischen Qualität anzeigte. Dieses Risiko galt als gegeben, wenn innerhalb von 14 Tagen eines der folgenden Ereignisse eintrat: außerplanmäßige medizinische Versorgung, Änderung der Diagnose, unerwartete Einweisung in die Intensivstation innerhalb von 24 Stunden bei Erstaufnahme im Krankenhaus oder Tod.
Zwischen dem 9. Juni 2022 und dem 23. Juni 2023 wurden 15.845 Patienten untersucht, von denen 1.204 (49,1 Prozent Frauen) in die primäre Wirksamkeitsanalyse einbezogen wurden. Das mediane Alter der Teilnehmenden betrug 53 Jahre. Ein Risiko für die diagnostische Qualität wurde bei 100 (18 Prozent) von 559 Patienten mit CDDSS-gestützten Diagnosen und bei 119 (18 Prozent) von 645 mit ungestützten Diagnosen beobachtet (bereinigtes Odds Ratio 0,96 [Konfidenzintervall 95 Prozent, Spreizung 0,71 bis 1,3]). 94 (7,8 Prozent) Patienten erlitten ein schwerwiegendes unerwünschtes Ereignis, das nicht mit der Studie in Verbindung stand.
Die Ergebnisse überraschen: Sowohl in der Phase mit als auch in der Phase ohne KI-basierte Diagnoseunterstützung trat bei 18 Prozent der Patientinnen und Patienten ein diagnostisches Qualitätsrisiko auf. Auch bezüglich schwerwiegenden unerwünschten Ereignissen und dem Ressourcenverbrauch, gemessen in Schweizer Franken, gab es keine Unterschiede zwischen den Gruppen. Die Studie konnte trotz optimierter Technologie und umfangreicher Schulung des medizinischen Personals keinen relevanten Vorteil der CDDSS-Nutzung nachweisen. „Eine KI-basierte Diagnoseunterstützung hat in der Notfallmedizin keinen für die Patientinnen und Patienten messbaren Effekt. Unabhängig davon, ob man nach medizinischen, ökonomischen oder prozeduralen Unterschieden schaut“, fasst Prof. Dr. med. Wolf Hautz, Leitender Arzt der Universitätsklinik für Notfallmedizin und Erstautor der Studie, die Ergebnisse zusammen.
„Die Diagnosequalität muss anders optimiert werden“
Die Studienresultate verdeutlichen, dass computergestützte Diagnosesysteme, zumindest in ihrem aktuellen Entwicklungsstand, keinen erheblichen Einfluss auf die diagnostische Qualität in der Notfallmedizin haben. „Aktuell verfügbare KI wird das Problem der Fehldiagnosen nicht lösen. Wir müssen andere Lösungsansätze verfolgen, um die Diagnosequalität zu verbessern, und insbesondere die Forschung zu diesem Thema, die aktuell in den Kinderschuhen steckt, erheblich intensivieren“, ergänzt Hautz. Hierzu fördert der Schweizerische Nationalfonds an der Universitätsklinik für Notfallmedizin am Inselspital den Aufbau einer Arbeitsgruppe zum Thema „Kollaborative Entscheidungsfindung“. Die aktuelle Studie wurde durch das Nationale Forschungsprogramm „Digitale Transformation“ (NFP 77) des SNF mitfinanziert.
Hautz WE, et al. Diagnoses supported by a computerized diagnostic decision support system versus conventional diagnoses in emergency patients: a cluster-randomized, multi-period, crossover superiority trial. Lancet Digital Health. doi.org/10.1016/S2589- 7500(24)00250-4. Online ahead of print.
Literaturliste
Hautz WE et al. Diagnostic error increases mortality and length of hospital stay in patients presenting through the emergency room. Scand J Trauma Resusc Emerg Med. 2019 May 8;27(1):54. doi: 10.1186/s13049-019-0629-z. PMID: 31068188; PMCID: PMC6505221.
Nemec M et al., Patients presenting to the emergency department with non-specific complaints: the Basel Non-specific Complaints (BANC) study. Acad Emerg Med. 2010 Mar;17(3):284-92. doi: 10.1111/j.1553-2712.2009.00658.x. PMID: 20370761.