Branchennachrichten

Der Kampf um die Quelle der Wahrheit: Warum Encyclopedia Britannica OpenAI verklagt

Encyclopedia Britannica und Merriam-Webster verklagen OpenAI mit dem Vorwurf, ChatGPT habe urheberrechtlich geschützte Inhalte auswendig gelernt und reproduziert. Erfahren Sie mehr über die rechtlichen und technischen Auswirkungen.
Der Kampf um die Quelle der Wahrheit: Warum Encyclopedia Britannica OpenAI verklagt

Der rechtliche Sturm um generative KI hat einen neuen Höhepunkt erreicht. Encyclopedia Britannica und ihre Tochtergesellschaft Merriam-Webster haben offiziell Klage gegen OpenAI eingereicht. Sie werfen dem KI-Riesen vor, dass dessen Modelle nicht nur aus ihren riesigen Wissensspeichern gelernt, sondern diese effektiv „auswendig gelernt“ haben.

Diese Klage, die nach Berichten von Reuters vor einem Bundesgericht eingereicht wurde, markiert eine erhebliche Eskalation der anhaltenden Spannungen zwischen traditionellen Verlagen und den Architekten von Large Language Models (LLMs). Während sich frühere Klagen von Autoren und Nachrichtenorganisationen auf den Akt des Trainings konzentrierten, hebt der Fall von Britannica ein technischeres und vielleicht schädlicheres Phänomen hervor: das nahezu wortgetreue „Wiederkäuen“ (Regurgitation) von proprietären Fakten und Definitionen.

Der Kern des Konflikts: Auswendiglernen vs. Lernen

Im Mittelpunkt der Beschwerde steht die Unterscheidung zwischen einer KI, die ein Konzept „versteht“, und einer, die lediglich eine Kopie des Textes speichert. Britannica behauptet, dass GPT-4 auf Abruf nahezu identische Kopien seiner urheberrechtlich geschützten Artikel ausgeben kann. Für ein Unternehmen, das seit über 250 Jahren menschliches Wissen kuratiert, ist dies nicht nur eine Urheberrechtsverletzung – es ist eine direkte Bedrohung für sein Geschäftsmodell.

Um die Tragweite zu verstehen, hilft die Analogie eines Schülers und eines Lehrbuchs. Wenn ein Schüler ein Geschichtsbuch liest und dann einen originellen Aufsatz auf der Grundlage des Gelernten schreibt, gilt dies im Allgemeinen als transformative Nutzung. Wenn dieser Schüler jedoch in eine Prüfung geht und das Lehrbuch Wort für Wort rezitiert, beweist er kein Verständnis mehr; er fungiert als menschlicher Fotokopierer. Britannica argumentiert, dass die Modelle von OpenAI Letzteres tun.

Die Beweise für das „Wiederkäuen“

Die Klage führt spezifische Beispiele an, in denen GPT-4 angeblich Antworten erzeugte, die den Einträgen von Britannica „erheblich ähnlich“ waren. In der Welt der LLMs ist dies als „Regurgitation“ bekannt. Es tritt auf, wenn ein Modell so intensiv auf einem bestimmten Datensatz trainiert wird, dass die Gewichte des neuronalen Netzes darauf abgestimmt werden, diese Daten exakt zu reproduzieren, wenn sie mit bestimmten Schlüsselwörtern abgefragt werden.

Für Merriam-Webster steht ebenfalls viel auf dem Spiel. Wörterbuchdefinitionen sind notwendigerweise prägnant und spezifisch. Wenn eine KI eine Definition liefert, die den einzigartigen Formulierungen und strukturellen Nuancen von Merriam-Webster entspricht, erübrigt sich für den Nutzer die Notwendigkeit, jemals die Website des Verlags zu besuchen. Diese „Zero-Click“-Realität entzieht genau den Institutionen Werbeeinnahmen und Abonnementpotenzial, die jene hochwertigen Daten liefern, auf die KI angewiesen ist.

Warum diese Klage anders ist

Wir haben ähnliche Fälle von der The New York Times und verschiedenen prominenten Romanautoren gesehen, aber der Fall Britannica ist aus zwei Gründen einzigartig:

  1. Die Natur der Daten: Im Gegensatz zu einem Roman, der durch kreativen Ausdruck geschützt ist, ist eine Enzyklopädie eine Sammlung von Fakten. Während Fakten selbst nicht urheberrechtlich geschützt werden können, kann es die Auswahl und Anordnung dieser Fakten sehr wohl sein. Britannica argumentiert, dass OpenAI die spezifische Struktur und Synthese übernommen hat, die ihre Einträge autoritativ macht.
  2. Das Problem der „Quelle der Wahrheit“: OpenAI positioniert ChatGPT als Assistenten, der sachliche Informationen liefert. Wenn diese Informationen direkt von Britannica ohne Quellenangabe oder Vergütung bezogen werden, verkauft OpenAI im Wesentlichen den Ruf von Britannica für Genauigkeit als sein eigenes Produkt.

OpenAIs wahrscheinliche Verteidigung: Fair Use und Transformation

Obwohl OpenAI noch keine vollständige Erwiderung auf diese spezifische Einreichung veröffentlicht hat, bleibt ihre bisherige Verteidigung konsistent. Sie argumentieren, dass das Training von KI-Modellen auf öffentlich zugänglichen Internetdaten eine „angemessene Verwendung“ (Fair Use) darstellt. Sie behaupten, dass die Modelle etwas völlig Neues schaffen – eine vielseitige Argumentationsmaschine – und nicht eine Datenbank bestehender Werke.

OpenAI verweist auch häufig auf „Schutzplanken“ (Guardrails), die sie implementiert haben, um genau die Art von Wiederkäuen zu verhindern, über die sich Britannica beschwert. Wie diese Klage jedoch nahelegt, könnten diese Schutzplanken durchlässiger sein, als das Unternehmen zugibt, insbesondere wenn Benutzer spezifische Prompting-Techniken anwenden, um Trainingsdaten zu „extrahieren“.

Die technische Herausforderung des „Verlernens“

Einer der schwierigsten Aspekte dieses Rechtsstreits ist die technische Realität von LLMs. Sobald ein Modell auf einem Datensatz trainiert wurde, ist es bekanntermaßen schwierig, diese spezifischen Daten wieder zu „verlernen“. Es ist nicht so einfach wie das Löschen einer Datei von einer Festplatte. Die Informationen sind über Milliarden von Parametern verteilt.

Sollte das Gericht zugunsten von Britannica entscheiden, könnte OpenAI zu mehr gezwungen sein als nur zur Zahlung einer Geldstrafe. Sie könnten verpflichtet werden, Ausgaben aggressiver zu filtern oder, im schlimmsten Fall für das Tech-Unternehmen, Modelle von Grund auf ohne die umstrittenen Daten neu zu trainieren – ein Prozess, der Millionen von Dollar und Monate an Rechenzeit kosten würde.

Was dies für die Zukunft der KI bedeutet

Diese Klage ist ein Wegweiser für die Ära der „Datenlizenzierung“ in der KI. Wir entfernen uns von der „Wild-West“-Periode, in der KI-Unternehmen das Internet ungestraft abgegriffen haben. In den kommenden Monaten werden wir wahrscheinlich mehr hochkarätige Partnerschaften sehen, bei denen KI-Firmen für den Zugang zu hochwertigen, verifizierten Datensilos bezahlen.

Für Nutzer könnte dies bedeuten, dass KI-Antworten transparenter werden, mit deutlicheren Zitaten und Links zurück zu den Originalquellen. Für die Branche bedeutet es, dass die Kosten für den Bau eines erstklassigen LLM erheblich steigen werden, da „kostenlose“ Datenquellen beginnen, rechtliche Bezahlschranken zu errichten.

Praktische Erkenntnisse für Unternehmen und Ersteller

Während sich die Rechtslandschaft verschiebt, sollten Sie sich wie folgt in der sich ändernden Umgebung bewegen:

  • KI-Ausgaben verifizieren: Wenn Sie KI für die Sachrecherche nutzen, gleichen Sie die Informationen mit Primärquellen ab. Das Problem des „Auswendiglernens“ beweist, dass KI manchmal urheberrechtlich geschütztes Material als ihren eigenen ursprünglichen Gedanken ausgeben kann.
  • Lizenzierung respektieren: Wenn Sie Tools mit LLM-APIs erstellen, seien Sie sich bewusst, dass der rechtliche Status der Trainingsdaten noch im Fluss ist. Stellen Sie sicher, dass Ihre Anwendungsfälle nicht unbeabsichtigt Urheberrechtsverletzungen begünstigen.
  • Den Präzedenzfall beobachten: Das Ergebnis des Falls Britannica gegen OpenAI wird wahrscheinlich den Standard dafür setzen, wie „faktische“ Inhalte im Zeitalter der KI behandelt werden. Ein Sieg für Britannica könnte zu einem fragmentierteren Informations-Ökosystem führen, in dem der Zugang bezahlt werden muss.

Quellen

  • Reuters: Encyclopedia Britannica and Merriam-Webster sue OpenAI over copyright
  • U.S. Copyright Office: Artificial Intelligence and Copyright Public Inquiries
  • OpenAI Blog: Our approach to data and privacy in the age of AI
bg
bg
bg

Wir sehen uns auf der anderen Seite.

Unsere Ende-zu-Ende-verschlüsselte E-Mail- und Cloud-Speicherlösung bietet die leistungsfähigsten Mittel für den sicheren Datenaustausch und gewährleistet die Sicherheit und den Schutz Ihrer Daten.

/ Kostenloses Konto erstellen