Studie der Hochschule Heilbronn

Gesundheitswebseiten bleiben meist unverständlich

Heftarchiv Gesellschaft
nb
Wie verständlich sind Gesundheitsinformationen im Internet? Eine Studie der Hochschule Heilbronn hat Lesbarkeit und Themenfelder von über 14 Millionen Gesundheitswebseiten in Deutschland, Österreich und der Schweiz analysiert.

Mit einem „Fokussierten Web-Crawler“– einem Computerprogramm, das das Internet unter Zuhilfenahme von KI automatisch nach bestimmten Informationen durchsucht – wurden in der vorliegenden Studie der Hochschule Heilbronn von Mai 2019 bis Mai 2020 die URLs und Textinhalte von insgesamt 14,2 Millionen gesundheitsrelevanten deutschsprachigen Webseiten analysiert .

„Während der Crawler von Webseite zu Webseite springt, speichern wir die Verlinkungen zwischen gesundheitsrelevanten Internetseiten. Auf diese Weise entsteht ein sogenannter Web-Graph, der ausschließlich gesundheitsrelevante Webseiten und deren Verlinkungen untereinander enthält“, schildert der Medizininformatiker und Studienautor Richard Zowalla die Methodik.

Die Wichtigkeit einer Webseite innerhalb dieses Gesundheitsweb-Graphen wurde dann anschließend mit Google‘s PageRank bestimmt. Das heißt, je mehr Links auf eine Seite verweisen, desto höher scheint ihre Bedeutsamkeit zu sein. Mithilfe des Page Rank wurde jeweils für Deutschland, Österreich und die Schweiz eine Top 1.000 Liste berechnet, wodurch insgesamt eine Top 3.000 Liste des Gesundheitswebs entstand.

Mehr als die Hälfte der Top 3.000 Seiten sind von privaten Anbietern

Die Untersuchung zeigt, dass öffentliche Institutionen, wie das Robert Koch-Institut und nicht kommerzielle Anbieter von Gesundheitsinformationen wie die Webseite der Deutschen Krebshilfe nur knapp die Hälfte der Top 3.000 Seiten des Gesundheitswebs in Deutschland, Österreich und der Schweiz ausmachen, während der Großteil an Informationen durch private Anbieter wie die Webseiten von ÄrztInnen zur Verfügung gestellt wird: Von den 3.000 bestplatzierten Seiten gehören 18,5 Prozent (555/3.000) zu Websites von staatlichen oder öffentlichen Einrichtungen, 18,03 Prozent (541/3.000) zu gemeinnützigen Organisationen, 54,03 Prozent (1621/3.000) zu privaten Organisationen, 4,07 Prozent (122/3.000) zu Nachrichtenagenturen, 3,87 Prozent (116/3.000) zu Pharmaunternehmen, 0,90 Prozent (27/3.000) zu privaten Bloggern und 0,60 Prozent (18/3.000) zu anderen.

Die vordersten Ränge (jeweils bis 50 Seiten) der Top 3.000 nehmen in allen drei Ländern vor allem die Informationsangebote von öffentlichen Einrichtungen ein. „Interessant ist jedoch, dass dies nicht unbedingt die Informationsangebote sind, die ein kommerzieller Suchmaschinenanbieter als Top-Treffer präsentiert, hier stehen oftmals private Anbieter im Vordergrund“, erläutert Zowalla.

Webseiten zu "Forschung & Wissenschaft" am stärksten verbreitet

Die Themen des Gesundheitswebs wurden mittels „Latent Dirchlet Allocation“ (LDA) bestimmt. LDA ist ein Verfahren, das verwendet wird, um eine große Menge an unstrukturierten Texten zu kategorisieren und Themen zu identifizieren. LDA ermittelte insgesamt 50 Themen, die die Studienautoren in elf Themen gruppierten: "Forschung & Wissenschaft", "Krankheit & Verletzung", "Der Staat", "Strukturen des Gesundheitswesens", "Ernährung & Lebensmittel", "Medizinische Spezialitäten", "Wirtschaft", "Lebensmittelproduktion", "Gesundheitskommunikation", "Familie" und "Sonstige".

Die am weitesten verbreiteten Themen im Gesundheitsweb in Deutschland, Österreich und der Schweiz waren demnach "Forschung & Wissenschaft" mit 21,04 Prozent und "Krankheit & Verletzung" mit 17,92 Prozent. Außerdem zeigte die Untersuchung, dass das Thema "Pandemie & Impfung" mit Bezug zur COVID-19 Pandemie bereits im Januar 2020 ein Bestandteil des Gesundheitsweb war.

Anschließend wurde für jede gesundheitsbezogene Webseite eine computergestützte Lesbarkeits- und Wortschatzanalyse durchgeführt. Als Maßstab für die Lesbarkeit eines Textes wurden der so genannte „FRE-Score“ und die „Vierte Wienersachtextformel“, kurz WSTF, verwendet. Als schwerer lesbar werden dabei unter anderem längere medizinische Fachbegriffe und lange oder verschachtelte Sätze gewertet. Diese Lesbarkeitsmaße bewerten einen Text entweder als Punktwert (Score) oder in Form von Schuljahren. Erhält ein Text die Bewertung 11, sollten LeserInnen, die die 11. Klasse abgeschlossen haben, diese sprachlich klar erfassen können. Im Falle von Gesundheitsinformationen würde man empfehlen, dass diese Texte bereits von SchülerInnen aus der Mittelstufe verstanden werden können. Das verwendete Vokabular wurde zudem per KI-Verfahren auf dessen Laientauglichkeit untersucht.

Nur wer ein Hochschulstudium hat, kann diese Texten verstehen

Die Lesbarkeitsanalyse zeigt, dass die Mehrheit der gesammelten Websites „strukturell schwierig" oder „sehr schwierig" zu lesen ist: 84,63 Prozent (2.539/3000) erreichten einen WSTF ≥ 12; ganze 89,7 Prozent (2691/3.000) einen FRE ≤ 49.

Die Studie zeige damit, dass im deutschsprachigen Gesundheitsweb das Niveau deutlich über dem Niveau der Mittelstufe liege und ein Text nur dann vollständig erfasst werden könne, „wenn 13 bis 14 Jahre schulische Bildung vorliegen“, betont Zowalla. Bemerkenswert sei jedoch, dass das verwendete Vokabular größtenteils gut für ein Laienpublikum geeignet ist. So ergab die Wortschatzanalyse, dass 44 Prozent (1.320/3.000) der Websites einen Wortschatz verwenden, der für ein Laienpublikum gut geeignet ist.

„Die Ergebnisse zeigen, dass die Lesbarkeit der Texte im deutschsprachigen Gesundheitsweb gering ist", schlussfolgern die Studienautoren. Infolgedessen könnten PatientInnen auf Barrieren stoßen, „auch wenn das verwendete Vokabular aus medizinischer Sicht angemessen erscheint".

„Im Zeitalter von Fake News und Desinformation wäre es sicherlich interessant, wenn ein Verfahren vertrauenswürdige Anbieter, wie beispielsweise das Robert Koch-Institut, für Gesundheitsinformationen vollautomatisch identifizieren könnte“, ergänzt Zowalla. Hier bestehe jedoch weiterhin Handlungs- und Forschungsbedarf.

Zowalla R, Pfeifer D, Wetter T (2023) Readability and topics of the German Health Web: Exploratory study and text analysis. PLoS ONE 18(2): e0281582. https://doi.org/10.1371/journal.pone.0281582

Melden Sie sich hier zum zm-Newsletter des Magazins an

Die aktuellen Nachrichten direkt in Ihren Posteingang

zm Heft-Newsletter


Sie interessieren sich für einen unserer anderen Newsletter?
Hier geht zu den Anmeldungen zm Online-Newsletter und zm starter-Newsletter.