Ein lukrativer Deal
Kürzlich kam heraus, dass der britische Wissenschaftsverlag Taylor & Francis einen Zehn-Millionen-US-Dollar-Deal mit Microsoft unterzeichnet hatte, wie die Reporterin Elisabeth Gibney in Nature berichtete. Der Deal soll es dem US-Technologieunternehmen ermöglichen, auf die Daten des Verlags zuzugreifen, um seine KI-Systeme zu verbessern. Und im Juni wurde bekannt, dass der US-Verleger Wiley 23 Millionen Dollar verdient hatte, weil er einem ungenannten Unternehmen erlaubt hatte, generative-KI-Modelle auf Basis seiner Produkte zu trainieren.
Alles, was man online lesen kann – ob frei zugänglich oder nicht – sei mit ziemlicher Wahrscheinlichkeit bereits in ein Large Language Model (LLM) eingespeist worden, zitiert Gibney in ihrem Beitrag Lucy Lu Wang, eine KI-Forscherin an der University of Washington in Seattle. Und wenn ein Forschungspapier bereits als Trainingsgrundlage in einem Modell verwendet wurde, gebe es keine Möglichkeit mehr, dieses Papier zu entfernen.
Was sind LLM?
Large Language Models (kurz: LLM und auf Deutsch: Große Sprachmodelle) sind leistungsstarke Modelle, die darauf ausgelegt sind, menschliche Sprache zu verstehen und zu generieren. Sie können Text analysieren und verstehen, kohärente Antworten generieren und sprachbezogene Aufgaben ausführen. Einige häufig verwendete Large Language Models sind: GPT-4 von OpenAI, PaLM 2 von Google oder Llama 2 von Meta. LLM beherrschen das Verarbeiten von komplexen Texten, Fragen und Anweisungen und sind in der Lage, schlüssige Texte mit korrekter Grammatik und Rechtschreibung zu generieren.
(Definition: Fraunhofer-Institut)
Akademische Arbeiten sind für die KI wertvoll
LLMs trainieren mit riesigen Datenmengen, die häufig aus dem Internet stammen, wie Gibney weiter erläutert. Sie leiten Muster zwischen den oft Milliarden von Sprachschnipseln in den Trainingsdaten ab und können so Texte erstaunlich fließend generieren. Modelle der generativen KI basieren demnach auf der Aufnahme von Mustern aus diesen Datenmengen. Sie können so Texte, Bilder oder Computercode ausgeben. Akademische Arbeiten seien aufgrund ihrer Länge und ihrer hohen Informationsdichte für LLM-Studierende wertvoll, zitiert Gibney Stefan Baack, der KI-Trainingsdatensätze bei der Mozilla Foundation analysiert, einer globalen gemeinnützigen Organisation in San Francisco, Kalifornien, deren Ziel es ist, das Internet für alle zugänglich zu halten.
Der Großteil der Trainingsdaten bleibt geheim
Der Trend, qualitativ hochwertige Datensätze für KI-Zwecke zu kaufen, nimmt Gibney zufolge zu. So habe in diesem Jahr die Financial Times ihre Inhalte dem ChatGPT-Entwickler OpenAI in einem lukrativen Deal angeboten, ebenso wie das Online-Forum Reddit Google. Einige KI-Entwickler hielten ihre Datensätze absichtlich öffentlich zugänglich, doch viele Unternehmen, die generative KI-Modelle entwickeln, hielten einen Großteil ihrer Trainingsdaten geheim, schreibt Gibney.
Der Nachweis, dass ein LLM eine einzelne Forschungsarbeit verwendet hat, sei schwierig, wird Yves-Alexandre de Montjoye, Informatiker am Imperial College London, zitiert. Eine Möglichkeit bestehe darin, das Modell mit einem ungewöhnlichen Satz aus einem Text anzufüttern und zu sehen, ob die Ausgabe mit den nächsten Wörtern im Original übereinstimmt. Wenn dies der Fall ist, sei dies ein guter Beweis dafür, dass die Forschungsarbeit im Trainingssatz enthalten ist. Ist dies nicht der Fall, bedeute dies aber im Umkehrschluss nicht, dass das Papier nicht verwendet wurde.
Selbst wenn nachweisbar wäre, dass ein LLM an einem bestimmten Text trainiert wurde, sei nicht klar, was dann passiert, stellt Gibney heraus. Verlage behaupteten zwar, dass es als Urheberrechtsverletzung gelte, wenn Entwickler einen urheberrechtlich geschützten Text beim Training verwenden und dafür keine Lizenz beantragen. Ein Gegenargument sei jedoch, dass LLMs nichts kopieren würden – sie sammelten den Informationsgehalt der Trainingsdaten, die dann aufgeteilt würden und verwendeten es dann, um neue Texte zu generieren.
Die Studie:
Elizabeth Gibney, 2024. „Has your paper been used to train an AI model? Almost certainly,“ Nature, Nature, vol. 632(8026), pages 715-716, August.