Prawna burza wokół generatywnej sztucznej inteligencji osiągnęła nowy szczyt. Encyclopedia Britannica i jej spółka zależna, Merriam-Webster, oficjalnie złożyły pozew przeciwko OpenAI, twierdząc, że modele tego giganta AI nie tylko uczyły się z ich ogromnych repozytoriów wiedzy, ale skutecznie je „zapamiętały”.
Pozew ten, złożony w sądzie federalnym po doniesieniach agencji Reuters, oznacza znaczną eskalację trwającego napięcia między tradycyjnymi wydawcami a architektami dużych modeli językowych (LLM). Podczas gdy poprzednie pozwy autorów i organizacji informacyjnych skupiały się na samym akcie trenowania, sprawa Britanniki podkreśla bardziej techniczne i być może bardziej szkodliwe zjawisko: niemal dosłowne powielanie zastrzeżonych faktów i definicji.
W centrum skargi leży rozróżnienie między „zrozumieniem” koncepcji przez AI a zwykłym przechowywaniem kopii tekstu. Britannica twierdzi, że GPT-4 potrafi na żądanie wygenerować niemal identyczne kopie jej artykułów chronionych prawem autorskim. Dla firmy, która od ponad 250 lat zajmuje się selekcją ludzkiej wiedzy, nie jest to tylko naruszenie praw autorskich — to bezpośrednie zagrożenie dla ich modelu biznesowego.
Aby zrozumieć powagę sytuacji, rozważmy analogię ucznia i podręcznika. Jeśli uczeń przeczyta książkę do historii, a następnie napisze oryginalny esej na podstawie tego, czego się nauczył, jest to ogólnie uważane za użytek transformatywny. Jeśli jednak ten uczeń wejdzie na egzamin i wyrecytuje podręcznik słowo w słowo, nie wykazuje już zrozumienia; działa jak ludzka kserokopiarka. Britannica argumentuje, że modele OpenAI robią to drugie.
Pozew zawiera konkretne przykłady, w których GPT-4 rzekomo wygenerował odpowiedzi „istotnie podobne” do haseł Britanniki. W świecie LLM zjawisko to znane jest jako „regurgitacja” (wymiotowanie danymi). Występuje ono, gdy model jest tak intensywnie trenowany na konkretnym zestawie danych, że wagi sieci neuronowej zostają dostrojone do dokładnego odtwarzania tych danych po wyświetleniu konkretnych słów kluczowych.
Dla Merriam-Webster stawka jest równie wysoka. Definicje słownikowe są z konieczności zwięzłe i specyficzne. Jeśli AI dostarcza definicję, która pasuje do unikalnego sformułowania i niuansów strukturalnych Merriam-Webster, omija potrzebę odwiedzania strony internetowej wydawcy przez użytkownika. Ta rzeczywistość „zero kliknięć” wysysa przychody z reklam i potencjał subskrypcyjny z tych samych instytucji, które dostarczają wysokiej jakości dane, na których opiera się AI.
Widzieliśmy podobne sprawy ze strony The New York Times i różnych znanych powieściopisarzy, ale sprawa Britanniki jest wyjątkowa z dwóch powodów:
Chociaż OpenAI nie opublikowało jeszcze pełnej odpowiedzi na ten konkretny pozew, ich dotychczasowa linia obrony pozostaje spójna. Argumentują, że trenowanie modeli AI na publicznie dostępnych danych internetowych stanowi „dozwolony użytek”. Twierdzą, że modele tworzą coś całkowicie nowego — wielofunkcyjny silnik rozumowania — a nie bazę danych istniejących dzieł.
OpenAI często wskazuje również na „zabezpieczenia”, które wdrożyli, aby zapobiec dokładnie takiemu rodzajowi regurgitacji, na który skarży się Britannica. Jednak, jak sugeruje ten pozew, te zabezpieczenia mogą być bardziej nieszczelne, niż przyznaje firma, zwłaszcza gdy użytkownicy stosują specyficzne techniki promptowania w celu „wydobycia” danych treningowych.
Jednym z najtrudniejszych aspektów tej batalii prawnej jest techniczna rzeczywistość modeli LLM. Gdy model zostanie przeszkolony na zestawie danych, „oduczenie się” tych konkretnych danych jest niezwykle trudne. Nie jest to tak proste, jak usunięcie pliku z dysku twardego. Informacje są rozproszone w miliardach parametrów.
Jeśli sąd orzeknie na korzyść Britanniki, OpenAI może zostać zmuszone do czegoś więcej niż tylko zapłacenia kary. Mogą być zobowiązani do bardziej agresywnego filtrowania wyników lub, w najgorszym scenariuszu dla firmy technologicznej, do ponownego wytrenowania modeli od zera bez spornych danych — proces ten kosztowałby miliony dolarów i miesiące czasu obliczeniowego.
Ten pozew jest zwiastunem ery „licencjonowania danych” w AI. Odchodzimy od okresu „Dzikiego Zachodu”, w którym firmy AI przeszukiwały sieć bezkarnie. W nadchodzących miesiącach prawdopodobnie zobaczymy więcej głośnych partnerstw, w których firmy AI płacą za dostęp do wysokiej jakości, zweryfikowanych silosów danych.
Dla użytkowników może to oznaczać, że odpowiedzi AI staną się bardziej przejrzyste, z wyraźniejszymi cytatami i linkami do oryginalnych źródeł. Dla branży oznacza to, że koszt budowy najwyższej klasy modelu LLM znacznie wzrośnie, ponieważ „darmowe” źródła danych zaczną stawiać prawne bariery płatne.
W miarę jak krajobraz prawny ulega zmianie, oto jak należy poruszać się w tym zmieniającym się środowisku:



Nasze kompleksowe, szyfrowane rozwiązanie do poczty e-mail i przechowywania danych w chmurze zapewnia najpotężniejsze środki bezpiecznej wymiany danych, zapewniając bezpieczeństwo i prywatność danych.
/ Utwórz bezpłatne konto