Sensitivität und Spezifität: Was ist wann wichtig?
KI-Anwendungen werden üblicherweise, zumal wenn sie – wie die Mehrzahl der heutigen KI-Anwendungen in der Medizin – aus dem Bereich der Diagnoseunterstützung oder Vorhersage stammen, mit bestimmten Kennziffern zur Erkennungsgenauigkeit charakterisiert. Diese Kennziffern leiten sich aus sogenannten Diagnostikgenauigkeitsstudien ab, bei denen beispielsweise auf Röntgenbildern eine bestimmte Pathologie (wie Karies oder apikale Läsionen) detektiert werden soll. Dabei wird die KI-Anwendung gegen einen sogenannten Goldstandard bewertet; KI-Entscheidungen können demnach
wahr-positiv (Test lag richtig – Karies vorhanden),
wahr-negativ (Test lag richtig – Karies nicht vorhanden),
falsch-positiv (Test lag falsch – Karies nicht vorhanden) oder
falsch-negativ (Test lag falsch – Karies vorhanden) sein.
Aus einer daraus generierten sogenannten Vierfeldertafel werden dann charakteristische Maßzahlen wie die Genauigkeit (also die Prozentzahl der korrekten Klassifikationen), die Sensitivität (also die Prozentzahl der erkannten kranken Fälle) und die Spezifität (ein Maß für die falsch-positiv Rate) abgeleitet (Abbildung 1).
Welche Maßzahlen sind wann relevant?
Eine zentrale Frage ist nun, welche dieser Maßzahlen für die Nutzer, also Zahnärztinnen und Zahnärzte, relevant sind. Hierzu muss man sich vor Augen führen, um welche Erkrankungen es geht: Im Bereich der Zahnmedizin haben wir es beispielsweise mit der Karies um eine langsam voranschreitende Erkrankung zu tun, bei der die Diagnostik regelmäßig (üblicherweise in 6- bis 12-monatigen Intervallen für die visuell-taktile Inspektion und in 18- bis 36-monatigen Intervallen für die Röntgendiagnostik, zumindest bei geschlossenen Zahnreihen) durchgeführt wird. Ausgehend von der geringen Progressionsgeschwindigkeit vor allem früher kariöser Läsionen und ausgehend davon, dass der Zahnarzt regelmäßig nach diesen Läsionen „fahndet“, ist es demnach teilweise akzeptabel, einen gewissen Prozentsatz von Läsionen zu übersehen (begrenzte Trefferquote der Erkrankten, Sensitivität) – ist doch die Gefahr, dass diese Läsion bis zur nächsten Detektion voranschreitet, relativ gering.
KI in der Zahnarztpraxis
Erste Anwendungen mit Künstlicher Intelligenz (KI) für die Zahnarztpraxis gibt es inzwischen, doch noch immer herrscht viel Unsicherheit darüber, was KI eigentlich ist und leisten kann. Was können Zahnärztinnen und Zahnärzte vom Einsatz einer KI im Alltag erwarten? Welchen Mehrwert kann ein solches Werkzeug bringen? In der Reihe „KI in der Zahnarztpraxis“ erörtern Experten Fragen zum Verständnis der KI.
Bei der Spezifität (Trefferquote der Gesunden) verhält es sich möglicherweise andersherum: Gerade in vielen jüngeren Bevölkerungsgruppen ist die Wahrscheinlichkeit, überhaupt kariöse Läsionen anzutreffen, zunehmend geringer. So weisen zwölfjährige Kinder laut der Fünften Deutschen Mundgesundheitsstudie kaum noch kavitierte Karies auf; die Wahrscheinlichkeit, in dieser Gruppe bei einer visuell-taktilen Befundung Karies anzutreffen, ist demnach relativ gering. Für frühe Karies kann einerseits eine hohe Sensitivität angestrebt werden – dann sollte die detektierte frühe Karies aber auch nicht invasiv therapiert werden. Wenn nur invasive Optionen zur Verfügung stehen, ist wiederum die Spezifität wichtiger – um Schaden von gesunden Zahnflächen abzuwenden.
Jede KI-Anwendung, die nach Karies fahndet, sollte also unter diesem Blickwinkel beurteilt werden: Wenn die Wahrscheinlichkeit, überhaupt Karies zu finden, gering ist, so muss die Anwendung möglichst gut geeignet sein, falsch-positive Detektionen zu vermeiden – hier wäre die Spezifität also wichtiger! Umgekehrt ist für frühe Karies und das Ziel, diese durch nicht invasive Therapien zu arretieren, die Sensitivität eine wichtige Maßzahl!
Hier kommt es auf die Sensivität an
Im Gegensatz zur Karies ist bei der Detektion oraler Plattenepithelkarzinome stets die Sensitivität wichtig. Eine KI-Anwendung, die Plattenepithelkarzinome auf fotografischen Abbildungen klassifiziert und von weniger gefährlichen Entitäten abgrenzt, sollte möglichst eine hohe Sensitivität aufweisen, unter anderem, weil es sich bei Plattenepithelkarzinomen um schneller voranschreitende, maligne Erkrankungen handelt und ein Übersehen im frühen Stadium für den Patienten lebensgefährlich werden kann.
Anwender sollten also je nach Pathologie, deren Häufigkeit und Stadium und auch den Therapieoptionen unterschiedliche Maßzahlen entsprechend gewichten. Wenn ausgehend von einer falsch-positiven Detektion nur unschädliche Therapieoptionen gewählt würden, also zum Beispiel bei einer falsch-positiven Kariesdetektion stets nur Fluoridlack aufgetragen würde, so ist der Gesundheitsschaden für den Patienten minimal. Wird hingegen für jede falsch-positiv detektierte kariöse Läsion eine Füllung platziert, ist der Schaden sowohl für den Patienten als auch für das Gesundheitssystem ungleich höher.
Fazit
Es gibt keinen „Sollwert“ für die Sensivitität und Spezifität von KI-Modellen. Bei einer Erkrankung, die langsam voranschreitet, nicht gefährlich ist und auf die regelmäßig untersucht (gescreent) wird, sind höhere Spezifitäten (circa 90 Prozent oder mehr) möglicherweise wichtiger als Sensitivität. 90 Prozent Spezifität bedeutet, dass bei jedem zehnten Untersuchungsdurchgang etwas als krank erachtet wird, was eigentlich gesund ist – wenn regelmäßig untersucht wird, kann dies schnell relevant werden. Teilweise umgehen kann man die Gefahren einer Überdetektion, wenn zumindest die Therapie angepasst und eine wenig invasive Therapie gewählt wird. Insgesamt sollte immer die klinische Gesamtsituation berücksichtigt werden – und das können nur die Nutzer der KI-Software, nicht die KI selbst!
Oft ist allerdings auch eine hohe Sensitivität notwendig, um eine frühe und wenig invasive Therapie wählen zu können. Die Anwender von KI sollten beide Metriken zusammen beurteilen und die Aspekte Prävalenz, Screeningintervall und Therapieoptionen im Hinterkopf haben. Generell gilt: Zahnärztinnen und Zahnärzte müssen ihre medizinischen „Sinne“ auch weiterhin geschärft halten – denn KI-Anwendungen nehmen uns ja nicht Interpretationen und Entscheidungen ab, sondern unterstützen diese nur.