US-Forscher entwickeln Methode zur Erkennung KI-generierter Texte
In der Studie, die jüngst im Fachjournal Cell Reports Physical Science veröffentlicht wurde, berichten US-Forscher von einer neuen Methode zur Unterscheidung von Texten, die von ChatGPT und von (menschlichen) Wissenschaftlern generiert wurden. Dazu wurden zunächst kurze Überblicksartikel zu verschiedenen Forschungsthemen aus der Fachzeitschrift Science mit einem jeweiligen von ChatGPT generierten Text verglichen, der sowohl auf dem exakten Titel des Science-Artikels basiert als auch die im Vergleichstext angesprochenen Themen möglichst gut wiedergibt. Die Texte decken ein breites Spektrum an Themen von Biologie bis Physik ab, berichten die Autoren, so dass die Methode nicht durch die Sitten und das Vokabular einer bestimmten Disziplin beeinflusst wird.
Um für die Software einen „Trainingsdatensatz“ zu erstellen, wurden insgesamt 64 Science-Übersichtsartikel aus dem Zeitraum von September 2022 bis März 2023 ausgewählt und verwendet, um 128 ChatGPT-Texte zu erzeugen. Zur Erstellung der KI-generierten Texte nutzten die Forscher stets den gleichen Prompt, also die gleiche Eingabeaufforderung: „Can you produce a 300 to 400 word summary on this topic: […]“. Diese Gruppe von Trainingsdaten generierte 1.276 Beispielabsätze.
Durch den manuellen Vergleich vieler Beispiele aus dem Trainingsset konnten die Forscher vier Kategorien von Merkmalen identifizieren, die für die Unterscheidung zwischen menschlichen und KI-generierten Texten nützlich zu sein scheinen:
(1) die Komplexität der Absätze,
(2) die unterschiedliche Länge der Sätze,
(3) die unterschiedliche Verwendung von Satzzeichen und
(4) unterschiedliche „beliebte Wörter“.
Ergebnis: Menschen variieren ihre Satzlängen stärker als ChatGPT
Nachdem die Software vollständig entwickelt und optimiert war, erstellten die Forscher zwei Testdatensätze aus Science-Übersichtsartikeln von November und Dezember 2021 sowie von November und Dezember 2020. Jeder Testsatz enthielt 30 Übersichtsartikel sowie 60 von ChatGPT abgeleitete Aufsätze, die wie oben beschrieben, generiert wurden.
Dabei stellte sich heraus, dass die die größten Unterscheidungsmerkmale die Anzahl der Sätze pro Absatz und die Anzahl der Gesamtwörter pro Absatz waren. In beiden Fällen waren die Durchschnittswerte von ChatGPT deutlich niedriger als die der menschlichen Wissenschaftler. Die Forscher fanden auch heraus, dass Menschen es vorzogen, ihre Satzstrukturen stärker zu variieren als ChatGPT: Während die durchschnittliche Satzlänge kein nützliches Unterscheidungsmerkmal zwischen den beiden Gruppen war, war die Standardabweichung der Satzlänge in einem bestimmten Absatz ein wertvolles Unterscheidungsmerkmal, ebenso wie der mittlere Unterschied (in Wörtern) zwischen einem bestimmten Satz und dem unmittelbar darauf folgenden. Menschen variieren ihre Satzlängen demnach stärker als ChatGPT.
ChatGPT verwendet mehr Anführungszeichen
Eine weitere Erkenntnis der Forscher: Menschliche Wissenschaftler verwenden häufiger Fragezeichen, Gedankenstriche, Klammern, Semikolons und Doppelpunkte, während ChatGPT mehr einfache Anführungszeichen verwendet. Wissenschaftler verwenden auch mehr Eigennamen und/oder Akronyme, was sich in der Häufigkeit von Großbuchstaben niederschlägt, und Wissenschaftler verwenden mehr Zahlen. ChatGPT scheint es vorzuziehen, die Informationen allgemeiner zu halten, und dieses übergeordnete Thema zeigt sich in den Unterschieden in der Häufigkeit bestimmter Wörter.
ChatGPT bezieht sich eher auf mehrdeutige Personengruppen, einschließlich „andere“ und „Forscher“ während Menschen eher den Namen des Wissenschaftlers nennen, dessen Arbeit sie beschreiben. Menschliche Wissenschaftler verwenden zudem eher zweideutige Ausdrücke („aber“, „obwohl“), und sie benutzen auch häufiger „dies“und „weil“.
Weitere Studien sind erforderlich
Zwar habe die Software in diesem spezifischen Versuchsaufbau sehr gute Ergebnisse erzielt, freuen sich die Studienautoren, weisen zeitgleich aber auch daraufhin, dass alle diese Beobachtungen nur auf einer einzigen Art von wissenschaftlichen Texten basieren, den Übersichtsartikeln aus Science. Es seien daher weitere Studien erforderlich, um die Verallgemeinerbarkeit dieser Beobachtungen auf die gesamte Vielfalt des menschlichen wissenschaftlichen Schreibens zu bewerten.
Unabhängige Experten sehen das genauso und bezweifeln aufgrund der Limitierungen im Studiendesign, dass diese Ergebnisse ohne Weiteres extrapoliert werden können. „Das Paper beschreibt einen gut nachvollziehbaren und methodisch sauberen Ansatz, von Menschen und von ChatGPT erstellte Texte zu unterscheiden“, äußert sich beispielsweise Martin Steinebach, Abteilungsleiter Media Security and IT Forensics am Fraunhofer Institut für Sichere Informationstechnologie gegenüber dem Deutschen Ärzteblatt. Allerdings liege dem nur ein sehr spezifischer, kleiner Ausschnitt aus der Menge aller vorstellbaren Texte der Untersuchung zugrunde. „Die Aussage der Arbeit ist also eher, dass für einen wohldefinierten Fall, bei dem ein homogener Schreibstil mit formalen Anforderungen sowie ein sich ähnelndes Profil der Autoren erwartet werden kann, eine zuverlässige Unterscheidung möglich ist“, sagt Steinebach. „Die Schlüsse, die die Autoren ziehen sind für den Ansatz gerechtfertigt, ob diese auf andere Datensätze übertragen werden können, ist fraglich.“
Das Fraunhofer Institut für Sichere Informationstechnologie (SIT) forscht ebenso an Möglichkeiten, mit ChatGPT erstellte Texte erkennen zu helfen. Die Experten arbeiten dabei unter anderem mit einer selbst entwickelten Methode zur Autorschaftsverifikation – kurz COAV: Ursprünglich wurde COAV genutzt, um Plagiate in wissenschaftlichen Arbeiten zu erkennen. Da COAV Texte auf stilistischer Basis vergleicht, lässt sich diese Methode laut Fraunhofer Institut aber auch für die Erkennung von einem bestimmten „Autor“ nutzen, wie zum Beispiel ChatGPT. Damit werden über Ähnlichkeiten von Textbausteinen und typische aufeinanderfolgende Buchstabenketten die Distanzen zwischen Texten errechnet: Ist der Text näher an GPT oder näher an einem Menschen?
Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools: Heather Desaire, Aleesa E. Chua, Madeline Isom, Romana Jarosova, David Hua; Published:June 07, 2023; DOI:https://doi.org/10.1016/j.xcrp.2023.101426