Wiadomości branżowe

Bitwa o źródło prawdy: Dlaczego Encyclopedia Britannica pozywa OpenAI

Encyclopedia Britannica i Merriam-Webster pozywają OpenAI, zarzucając, że ChatGPT zapamiętał i powielił treści chronione prawem autorskim. Poznaj skutki prawne i technologiczne.
Bitwa o źródło prawdy: Dlaczego Encyclopedia Britannica pozywa OpenAI

Prawna burza wokół generatywnej sztucznej inteligencji osiągnęła nowy szczyt. Encyclopedia Britannica i jej spółka zależna, Merriam-Webster, oficjalnie złożyły pozew przeciwko OpenAI, twierdząc, że modele tego giganta AI nie tylko uczyły się z ich ogromnych repozytoriów wiedzy, ale skutecznie je „zapamiętały”.

Pozew ten, złożony w sądzie federalnym po doniesieniach agencji Reuters, oznacza znaczną eskalację trwającego napięcia między tradycyjnymi wydawcami a architektami dużych modeli językowych (LLM). Podczas gdy poprzednie pozwy autorów i organizacji informacyjnych skupiały się na samym akcie trenowania, sprawa Britanniki podkreśla bardziej techniczne i być może bardziej szkodliwe zjawisko: niemal dosłowne powielanie zastrzeżonych faktów i definicji.

Sedno konfliktu: Zapamiętywanie a uczenie się

W centrum skargi leży rozróżnienie między „zrozumieniem” koncepcji przez AI a zwykłym przechowywaniem kopii tekstu. Britannica twierdzi, że GPT-4 potrafi na żądanie wygenerować niemal identyczne kopie jej artykułów chronionych prawem autorskim. Dla firmy, która od ponad 250 lat zajmuje się selekcją ludzkiej wiedzy, nie jest to tylko naruszenie praw autorskich — to bezpośrednie zagrożenie dla ich modelu biznesowego.

Aby zrozumieć powagę sytuacji, rozważmy analogię ucznia i podręcznika. Jeśli uczeń przeczyta książkę do historii, a następnie napisze oryginalny esej na podstawie tego, czego się nauczył, jest to ogólnie uważane za użytek transformatywny. Jeśli jednak ten uczeń wejdzie na egzamin i wyrecytuje podręcznik słowo w słowo, nie wykazuje już zrozumienia; działa jak ludzka kserokopiarka. Britannica argumentuje, że modele OpenAI robią to drugie.

Dowody na „regurgitację”

Pozew zawiera konkretne przykłady, w których GPT-4 rzekomo wygenerował odpowiedzi „istotnie podobne” do haseł Britanniki. W świecie LLM zjawisko to znane jest jako „regurgitacja” (wymiotowanie danymi). Występuje ono, gdy model jest tak intensywnie trenowany na konkretnym zestawie danych, że wagi sieci neuronowej zostają dostrojone do dokładnego odtwarzania tych danych po wyświetleniu konkretnych słów kluczowych.

Dla Merriam-Webster stawka jest równie wysoka. Definicje słownikowe są z konieczności zwięzłe i specyficzne. Jeśli AI dostarcza definicję, która pasuje do unikalnego sformułowania i niuansów strukturalnych Merriam-Webster, omija potrzebę odwiedzania strony internetowej wydawcy przez użytkownika. Ta rzeczywistość „zero kliknięć” wysysa przychody z reklam i potencjał subskrypcyjny z tych samych instytucji, które dostarczają wysokiej jakości dane, na których opiera się AI.

Dlaczego ten pozew jest inny

Widzieliśmy podobne sprawy ze strony The New York Times i różnych znanych powieściopisarzy, ale sprawa Britanniki jest wyjątkowa z dwóch powodów:

  1. Natura danych: W przeciwieństwie do powieści, która jest chroniona przez ekspresję twórczą, encyklopedia jest zbiorem faktów. Chociaż same fakty nie mogą być chronione prawem autorskim, to wybór i układ tych faktów już tak. Britannica twierdzi, że OpenAI przejęło specyficzną strukturę i syntezę, które czynią ich hasła autorytatywnymi.
  2. Problem „źródła prawdy”: OpenAI pozycjonuje ChatGPT jako asystenta dostarczającego informacji faktycznych. Jeśli te informacje pochodzą bezpośrednio z Britanniki bez przypisania autorstwa lub rekompensaty, OpenAI zasadniczo sprzedaje reputację Britanniki w zakresie dokładności jako własny produkt.

Prawdopodobna linia obrony OpenAI: Dozwolony użytek i transformacja

Chociaż OpenAI nie opublikowało jeszcze pełnej odpowiedzi na ten konkretny pozew, ich dotychczasowa linia obrony pozostaje spójna. Argumentują, że trenowanie modeli AI na publicznie dostępnych danych internetowych stanowi „dozwolony użytek”. Twierdzą, że modele tworzą coś całkowicie nowego — wielofunkcyjny silnik rozumowania — a nie bazę danych istniejących dzieł.

OpenAI często wskazuje również na „zabezpieczenia”, które wdrożyli, aby zapobiec dokładnie takiemu rodzajowi regurgitacji, na który skarży się Britannica. Jednak, jak sugeruje ten pozew, te zabezpieczenia mogą być bardziej nieszczelne, niż przyznaje firma, zwłaszcza gdy użytkownicy stosują specyficzne techniki promptowania w celu „wydobycia” danych treningowych.

Techniczne wyzwanie „odpamiętywania”

Jednym z najtrudniejszych aspektów tej batalii prawnej jest techniczna rzeczywistość modeli LLM. Gdy model zostanie przeszkolony na zestawie danych, „oduczenie się” tych konkretnych danych jest niezwykle trudne. Nie jest to tak proste, jak usunięcie pliku z dysku twardego. Informacje są rozproszone w miliardach parametrów.

Jeśli sąd orzeknie na korzyść Britanniki, OpenAI może zostać zmuszone do czegoś więcej niż tylko zapłacenia kary. Mogą być zobowiązani do bardziej agresywnego filtrowania wyników lub, w najgorszym scenariuszu dla firmy technologicznej, do ponownego wytrenowania modeli od zera bez spornych danych — proces ten kosztowałby miliony dolarów i miesiące czasu obliczeniowego.

Co to oznacza dla przyszłości AI

Ten pozew jest zwiastunem ery „licencjonowania danych” w AI. Odchodzimy od okresu „Dzikiego Zachodu”, w którym firmy AI przeszukiwały sieć bezkarnie. W nadchodzących miesiącach prawdopodobnie zobaczymy więcej głośnych partnerstw, w których firmy AI płacą za dostęp do wysokiej jakości, zweryfikowanych silosów danych.

Dla użytkowników może to oznaczać, że odpowiedzi AI staną się bardziej przejrzyste, z wyraźniejszymi cytatami i linkami do oryginalnych źródeł. Dla branży oznacza to, że koszt budowy najwyższej klasy modelu LLM znacznie wzrośnie, ponieważ „darmowe” źródła danych zaczną stawiać prawne bariery płatne.

Praktyczne wnioski dla firm i twórców

W miarę jak krajobraz prawny ulega zmianie, oto jak należy poruszać się w tym zmieniającym się środowisku:

  • Weryfikuj wyniki AI: Jeśli używasz AI do badań faktograficznych, sprawdzaj informacje w źródłach pierwotnych. Problem „zapamiętywania” dowodzi, że AI może czasami prezentować materiały chronione prawem autorskim jako własną, oryginalną myśl.
  • Szanuj licencjonowanie: Jeśli budujesz narzędzia korzystające z API modeli LLM, miej świadomość, że status prawny danych treningowych jest wciąż płynny. Upewnij się, że Twoje przypadki użycia nie ułatwiają nieumyślnie naruszania praw autorskich.
  • Obserwuj precedens: Wynik sprawy Britannica vs. OpenAI prawdopodobnie wyznaczy standard traktowania treści „faktograficznych” w erze AI. Wygrana Britanniki może doprowadzić do bardziej pofragmentowanego ekosystemu informacji typu „płać i graj”.

Źródła

  • Reuters: Encyclopedia Britannica and Merriam-Webster sue OpenAI over copyright
  • U.S. Copyright Office: Artificial Intelligence and Copyright Public Inquiries
  • OpenAI Blog: Our approach to data and privacy in the age of AI
bg
bg
bg

Do zobaczenia po drugiej stronie.

Nasze kompleksowe, szyfrowane rozwiązanie do poczty e-mail i przechowywania danych w chmurze zapewnia najpotężniejsze środki bezpiecznej wymiany danych, zapewniając bezpieczeństwo i prywatność danych.

/ Utwórz bezpłatne konto