Der rechtliche Sturm um generative KI hat einen neuen Höhepunkt erreicht. Encyclopedia Britannica und ihre Tochtergesellschaft Merriam-Webster haben offiziell Klage gegen OpenAI eingereicht. Sie werfen dem KI-Riesen vor, dass dessen Modelle nicht nur aus ihren riesigen Wissensspeichern gelernt, sondern diese effektiv „auswendig gelernt“ haben.
Diese Klage, die nach Berichten von Reuters vor einem Bundesgericht eingereicht wurde, markiert eine erhebliche Eskalation der anhaltenden Spannungen zwischen traditionellen Verlagen und den Architekten von Large Language Models (LLMs). Während sich frühere Klagen von Autoren und Nachrichtenorganisationen auf den Akt des Trainings konzentrierten, hebt der Fall von Britannica ein technischeres und vielleicht schädlicheres Phänomen hervor: das nahezu wortgetreue „Wiederkäuen“ (Regurgitation) von proprietären Fakten und Definitionen.
Im Mittelpunkt der Beschwerde steht die Unterscheidung zwischen einer KI, die ein Konzept „versteht“, und einer, die lediglich eine Kopie des Textes speichert. Britannica behauptet, dass GPT-4 auf Abruf nahezu identische Kopien seiner urheberrechtlich geschützten Artikel ausgeben kann. Für ein Unternehmen, das seit über 250 Jahren menschliches Wissen kuratiert, ist dies nicht nur eine Urheberrechtsverletzung – es ist eine direkte Bedrohung für sein Geschäftsmodell.
Um die Tragweite zu verstehen, hilft die Analogie eines Schülers und eines Lehrbuchs. Wenn ein Schüler ein Geschichtsbuch liest und dann einen originellen Aufsatz auf der Grundlage des Gelernten schreibt, gilt dies im Allgemeinen als transformative Nutzung. Wenn dieser Schüler jedoch in eine Prüfung geht und das Lehrbuch Wort für Wort rezitiert, beweist er kein Verständnis mehr; er fungiert als menschlicher Fotokopierer. Britannica argumentiert, dass die Modelle von OpenAI Letzteres tun.
Die Klage führt spezifische Beispiele an, in denen GPT-4 angeblich Antworten erzeugte, die den Einträgen von Britannica „erheblich ähnlich“ waren. In der Welt der LLMs ist dies als „Regurgitation“ bekannt. Es tritt auf, wenn ein Modell so intensiv auf einem bestimmten Datensatz trainiert wird, dass die Gewichte des neuronalen Netzes darauf abgestimmt werden, diese Daten exakt zu reproduzieren, wenn sie mit bestimmten Schlüsselwörtern abgefragt werden.
Für Merriam-Webster steht ebenfalls viel auf dem Spiel. Wörterbuchdefinitionen sind notwendigerweise prägnant und spezifisch. Wenn eine KI eine Definition liefert, die den einzigartigen Formulierungen und strukturellen Nuancen von Merriam-Webster entspricht, erübrigt sich für den Nutzer die Notwendigkeit, jemals die Website des Verlags zu besuchen. Diese „Zero-Click“-Realität entzieht genau den Institutionen Werbeeinnahmen und Abonnementpotenzial, die jene hochwertigen Daten liefern, auf die KI angewiesen ist.
Wir haben ähnliche Fälle von der The New York Times und verschiedenen prominenten Romanautoren gesehen, aber der Fall Britannica ist aus zwei Gründen einzigartig:
Obwohl OpenAI noch keine vollständige Erwiderung auf diese spezifische Einreichung veröffentlicht hat, bleibt ihre bisherige Verteidigung konsistent. Sie argumentieren, dass das Training von KI-Modellen auf öffentlich zugänglichen Internetdaten eine „angemessene Verwendung“ (Fair Use) darstellt. Sie behaupten, dass die Modelle etwas völlig Neues schaffen – eine vielseitige Argumentationsmaschine – und nicht eine Datenbank bestehender Werke.
OpenAI verweist auch häufig auf „Schutzplanken“ (Guardrails), die sie implementiert haben, um genau die Art von Wiederkäuen zu verhindern, über die sich Britannica beschwert. Wie diese Klage jedoch nahelegt, könnten diese Schutzplanken durchlässiger sein, als das Unternehmen zugibt, insbesondere wenn Benutzer spezifische Prompting-Techniken anwenden, um Trainingsdaten zu „extrahieren“.
Einer der schwierigsten Aspekte dieses Rechtsstreits ist die technische Realität von LLMs. Sobald ein Modell auf einem Datensatz trainiert wurde, ist es bekanntermaßen schwierig, diese spezifischen Daten wieder zu „verlernen“. Es ist nicht so einfach wie das Löschen einer Datei von einer Festplatte. Die Informationen sind über Milliarden von Parametern verteilt.
Sollte das Gericht zugunsten von Britannica entscheiden, könnte OpenAI zu mehr gezwungen sein als nur zur Zahlung einer Geldstrafe. Sie könnten verpflichtet werden, Ausgaben aggressiver zu filtern oder, im schlimmsten Fall für das Tech-Unternehmen, Modelle von Grund auf ohne die umstrittenen Daten neu zu trainieren – ein Prozess, der Millionen von Dollar und Monate an Rechenzeit kosten würde.
Diese Klage ist ein Wegweiser für die Ära der „Datenlizenzierung“ in der KI. Wir entfernen uns von der „Wild-West“-Periode, in der KI-Unternehmen das Internet ungestraft abgegriffen haben. In den kommenden Monaten werden wir wahrscheinlich mehr hochkarätige Partnerschaften sehen, bei denen KI-Firmen für den Zugang zu hochwertigen, verifizierten Datensilos bezahlen.
Für Nutzer könnte dies bedeuten, dass KI-Antworten transparenter werden, mit deutlicheren Zitaten und Links zurück zu den Originalquellen. Für die Branche bedeutet es, dass die Kosten für den Bau eines erstklassigen LLM erheblich steigen werden, da „kostenlose“ Datenquellen beginnen, rechtliche Bezahlschranken zu errichten.
Während sich die Rechtslandschaft verschiebt, sollten Sie sich wie folgt in der sich ändernden Umgebung bewegen:



Unsere Ende-zu-Ende-verschlüsselte E-Mail- und Cloud-Speicherlösung bietet die leistungsfähigsten Mittel für den sicheren Datenaustausch und gewährleistet die Sicherheit und den Schutz Ihrer Daten.
/ Kostenloses Konto erstellen