Pramonės naujienos

Kova dėl tiesos šaltinio: kodėl „Encyclopedia Britannica“ paduoda „OpenAI“ į teismą

„Encyclopedia Britannica“ ir „Merriam-Webster“ paduoda „OpenAI“ į teismą teigdamos, kad „ChatGPT“ įsiminė ir atkartojo autorių teisių saugomą turinį. Sužinokite apie teisinį ir technologinį poveikį.
Kova dėl tiesos šaltinio: kodėl „Encyclopedia Britannica“ paduoda „OpenAI“ į teismą

Teisinė audra dėl generatyvinio DI pasiekė naują viršūnę. „Encyclopedia Britannica“ ir jos dukterinė įmonė „Merriam-Webster“ oficialiai pateikė ieškinį prieš „OpenAI“, teigdamos, kad DI milžinės modeliai ne tik mokėsi iš jų plačių žinių saugyklų, bet ir efektyviai jas „įsiminė“.

Šis ieškinys, pateiktas federaliniam teismui po „Reuters“ pranešimų, žymi reikšmingą įtampos tarp tradicinių leidėjų ir didžiųjų kalbos modelių (LLM) architektų eskalaciją. Nors ankstesni autorių ir naujienų organizacijų ieškiniai buvo sutelkti į patį mokymo procesą, „Britannica“ byla išryškina techniškesnį ir galbūt žalingesnį reiškinį: beveik pažodinį nuosavybės teise saugomų faktų ir apibrėžimų atkartojimą.

Konflikto esmė: įsiminimas prieš mokymąsi

Skundo esmė yra skirtumas tarp to, ar DI „supranta“ sąvoką, ar tiesiog išsaugo teksto kopiją. „Britannica“ teigia, kad „GPT-4“ pagal pareikalavimą gali pateikti beveik identiškas jos autorių teisių saugomų straipsnių kopijas. Įmonei, kuri daugiau nei 250 metų kuravo žmonijos žinias, tai nėra tik autorių teisių pažeidimas – tai tiesioginė grėsmė jų verslo modeliui.

Norėdami suprasti šios situacijos rimtumą, apsvarstykite mokinio ir vadovėlio analogiją. Jei mokinys perskaito istorijos knygą ir tada parašo originalų rašinį pagal tai, ką išmoko, tai paprastai laikoma transformuojančiu naudojimu. Tačiau jei tas mokinys ateina į egzaminą ir pažodžiui atkartoja vadovėlį, jis nebedemonstruoja supratimo; jis veikia kaip žmogus-kopijavimo aparatas. „Britannica“ teigia, kad „OpenAI“ modeliai daro būtent pastarąjį.

„Atkūrimo“ įrodymai

Ieškinyje pateikiami konkretūs pavyzdžiai, kai „GPT-4“ tariamai pateikė atsakymus, kurie buvo „iš esmės panašūs“ į „Britannica“ įrašus. LLM pasaulyje tai žinoma kaip „regurgitacija“ (atkartojimas). Tai įvyksta, kai modelis taip intensyviai mokomas naudojant konkretų duomenų rinkinį, kad neuroninio tinklo svoriai susiderina taip, jog tiksliai atgamintų tuos duomenis, kai pateikiami konkretūs raktiniai žodžiai.

„Merriam-Webster“ atveju rizika yra ne mažesnė. Žodyno apibrėžimai iš būtinybės yra glausti ir specifiniai. Jei DI pateikia apibrėžimą, kuris atitinka unikalią „Merriam-Webster“ formuluotę ir struktūrinius niuansus, vartotojui nebelieka poreikio lankytis leidėjo svetainėje. Ši „nulinio paspaudimo“ realybė atima pajamas iš reklamos ir prenumeratų iš tų pačių institucijų, kurios teikia aukštos kokybės duomenis, kuriais remiasi DI.

Kodėl šis ieškinys yra kitoks

Matėme panašių bylų iš „The New York Times“ ir įvairių garsių romanistų, tačiau „Britannica“ byla yra unikali dėl dviejų priežasčių:

  1. Duomenų pobūdis: Skirtingai nei romanas, kurį saugo kūrybinė išraiška, enciklopedija yra faktų rinkinys. Nors patys faktai negali būti saugomi autorių teisių, tų faktų atranka ir išdėstymas gali būti. „Britannica“ teigia, kad „OpenAI“ pasisavino specifinę struktūrą ir sintezę, kuri daro jų įrašus autoritetingus.
  2. „Tiesos šaltinio“ problema: „OpenAI“ pozicionuoja „ChatGPT“ kaip asistentą, teikiantį faktinę informaciją. Jei ši informacija imama tiesiogiai iš „Britannica“ be nuorodos ar kompensacijos, „OpenAI“ iš esmės parduoda „Britannica“ tikslumo reputaciją kaip savo produktą.

Tikėtina „OpenAI“ gynyba: sąžiningas naudojimas ir transformacija

Nors „OpenAI“ dar nepateikė pilno atsakymo į šį konkretų ieškinį, jų istorinė gynyba išlieka nuosekli. Jie teigia, kad DI modelių mokymas naudojant viešai prieinamus interneto duomenis yra „sąžiningas naudojimas“. Jie tvirtina, kad modeliai sukuria kažką visiškai naujo – universalų samprotavimo variklį, o ne esamų kūrinių duomenų bazę.

„OpenAI“ taip pat dažnai nurodo įdiegtas „apsaugas“, skirtas užkirsti kelią būtent tokiam atkartojimui, dėl kurio skundžiasi „Britannica“. Tačiau, kaip rodo šis ieškinys, tos apsaugos gali būti labiau pralaidžios nei įmonė pripažįsta, ypač kai vartotojai naudoja specifines užklausų technikas mokymo duomenims „ištraukti“.

Techninis „atpratimo“ iššūkis

Vienas sudėtingiausių šios teisinės kovos aspektų yra techninė LLM realybė. Kai modelis apmokomas naudojant duomenų rinkinį, „atpratinti“ jį nuo tų konkrečių duomenų yra nepaprastai sunku. Tai nėra taip paprasta, kaip ištrinti failą iš kietojo disko. Informacija yra pasklidusi per milijardus parametrų.

Jei teismas priimtų sprendimą „Britannica“ naudai, „OpenAI“ gali būti priversta ne tik sumokėti baudą. Iš jų gali būti pareikalauta agresyviau filtruoti rezultatus arba, blogiausiu atveju technologijų įmonei, iš naujo apmokyti modelius nuo nulio be ginčijamų duomenų – procesas, kuris kainuotų milijonus dolerių ir mėnesius skaičiavimo laiko.

Ką tai reiškia DI ateičiai

Šis ieškinys yra „duomenų licencijavimo“ eros DI srityje pranašas. Mes traukiamės iš „Laukinių Vakarų“ laikotarpio, kai DI įmonės nebaudžiamai rinko duomenis iš viso interneto. Ateinančiais mėnesiais tikriausiai pamatysime daugiau aukšto lygio partnerysčių, kur DI įmonės mokės už prieigą prie aukštos kokybės, patikrintų duomenų saugyklų.

Vartotojams tai gali reikšti, kad DI atsakymai taps skaidresni, su aiškesnėmis citatomis ir nuorodomis į originalius šaltinius. Pramonei tai reiškia, kad aukščiausios klasės LLM kūrimo kaina gerokai išaugs, nes „nemokami“ duomenų šaltiniai pradės kelti teisinius mokėjimo barjerus.

Praktiniai patarimai verslui ir kūrėjams

Keičiantis teisinei aplinkai, štai kaip turėtumėte orientuotis kintančioje aplinkoje:

  • Tikrinkite DI rezultatus: Jei naudojate DI faktiniams tyrimams, sutikrinkite informaciją su pirminiais šaltiniais. „Įsiminimo“ problema įrodo, kad DI kartais gali pateikti autorių teisių saugomą medžiagą kaip savo originalią mintį.
  • Gerbkite licencijavimą: Jei kuriate įrankius naudodami LLM API, žinokite, kad mokymo duomenų teisinis statusas vis dar keičiasi. Įsitikinkite, kad jūsų naudojimo atvejai netyčia nepalengvina autorių teisių pažeidimo.
  • Stebėkite precedentą: „Britannica“ prieš „OpenAI“ bylos baigtis tikriausiai nustatys standartą, kaip DI amžiuje bus traktuojamas „faktinis“ turinis. „Britannica“ laimėjimas gali lemti labiau fragmentuotą, mokamą informacijos ekosistemą.

Šaltiniai

  • Reuters: Encyclopedia Britannica and Merriam-Webster sue OpenAI over copyright
  • U.S. Copyright Office: Artificial Intelligence and Copyright Public Inquiries
  • OpenAI Blog: Our approach to data and privacy in the age of AI
bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą