Teisinė audra dėl generatyvinio DI pasiekė naują viršūnę. „Encyclopedia Britannica“ ir jos dukterinė įmonė „Merriam-Webster“ oficialiai pateikė ieškinį prieš „OpenAI“, teigdamos, kad DI milžinės modeliai ne tik mokėsi iš jų plačių žinių saugyklų, bet ir efektyviai jas „įsiminė“.
Šis ieškinys, pateiktas federaliniam teismui po „Reuters“ pranešimų, žymi reikšmingą įtampos tarp tradicinių leidėjų ir didžiųjų kalbos modelių (LLM) architektų eskalaciją. Nors ankstesni autorių ir naujienų organizacijų ieškiniai buvo sutelkti į patį mokymo procesą, „Britannica“ byla išryškina techniškesnį ir galbūt žalingesnį reiškinį: beveik pažodinį nuosavybės teise saugomų faktų ir apibrėžimų atkartojimą.
Skundo esmė yra skirtumas tarp to, ar DI „supranta“ sąvoką, ar tiesiog išsaugo teksto kopiją. „Britannica“ teigia, kad „GPT-4“ pagal pareikalavimą gali pateikti beveik identiškas jos autorių teisių saugomų straipsnių kopijas. Įmonei, kuri daugiau nei 250 metų kuravo žmonijos žinias, tai nėra tik autorių teisių pažeidimas – tai tiesioginė grėsmė jų verslo modeliui.
Norėdami suprasti šios situacijos rimtumą, apsvarstykite mokinio ir vadovėlio analogiją. Jei mokinys perskaito istorijos knygą ir tada parašo originalų rašinį pagal tai, ką išmoko, tai paprastai laikoma transformuojančiu naudojimu. Tačiau jei tas mokinys ateina į egzaminą ir pažodžiui atkartoja vadovėlį, jis nebedemonstruoja supratimo; jis veikia kaip žmogus-kopijavimo aparatas. „Britannica“ teigia, kad „OpenAI“ modeliai daro būtent pastarąjį.
Ieškinyje pateikiami konkretūs pavyzdžiai, kai „GPT-4“ tariamai pateikė atsakymus, kurie buvo „iš esmės panašūs“ į „Britannica“ įrašus. LLM pasaulyje tai žinoma kaip „regurgitacija“ (atkartojimas). Tai įvyksta, kai modelis taip intensyviai mokomas naudojant konkretų duomenų rinkinį, kad neuroninio tinklo svoriai susiderina taip, jog tiksliai atgamintų tuos duomenis, kai pateikiami konkretūs raktiniai žodžiai.
„Merriam-Webster“ atveju rizika yra ne mažesnė. Žodyno apibrėžimai iš būtinybės yra glausti ir specifiniai. Jei DI pateikia apibrėžimą, kuris atitinka unikalią „Merriam-Webster“ formuluotę ir struktūrinius niuansus, vartotojui nebelieka poreikio lankytis leidėjo svetainėje. Ši „nulinio paspaudimo“ realybė atima pajamas iš reklamos ir prenumeratų iš tų pačių institucijų, kurios teikia aukštos kokybės duomenis, kuriais remiasi DI.
Matėme panašių bylų iš „The New York Times“ ir įvairių garsių romanistų, tačiau „Britannica“ byla yra unikali dėl dviejų priežasčių:
Nors „OpenAI“ dar nepateikė pilno atsakymo į šį konkretų ieškinį, jų istorinė gynyba išlieka nuosekli. Jie teigia, kad DI modelių mokymas naudojant viešai prieinamus interneto duomenis yra „sąžiningas naudojimas“. Jie tvirtina, kad modeliai sukuria kažką visiškai naujo – universalų samprotavimo variklį, o ne esamų kūrinių duomenų bazę.
„OpenAI“ taip pat dažnai nurodo įdiegtas „apsaugas“, skirtas užkirsti kelią būtent tokiam atkartojimui, dėl kurio skundžiasi „Britannica“. Tačiau, kaip rodo šis ieškinys, tos apsaugos gali būti labiau pralaidžios nei įmonė pripažįsta, ypač kai vartotojai naudoja specifines užklausų technikas mokymo duomenims „ištraukti“.
Vienas sudėtingiausių šios teisinės kovos aspektų yra techninė LLM realybė. Kai modelis apmokomas naudojant duomenų rinkinį, „atpratinti“ jį nuo tų konkrečių duomenų yra nepaprastai sunku. Tai nėra taip paprasta, kaip ištrinti failą iš kietojo disko. Informacija yra pasklidusi per milijardus parametrų.
Jei teismas priimtų sprendimą „Britannica“ naudai, „OpenAI“ gali būti priversta ne tik sumokėti baudą. Iš jų gali būti pareikalauta agresyviau filtruoti rezultatus arba, blogiausiu atveju technologijų įmonei, iš naujo apmokyti modelius nuo nulio be ginčijamų duomenų – procesas, kuris kainuotų milijonus dolerių ir mėnesius skaičiavimo laiko.
Šis ieškinys yra „duomenų licencijavimo“ eros DI srityje pranašas. Mes traukiamės iš „Laukinių Vakarų“ laikotarpio, kai DI įmonės nebaudžiamai rinko duomenis iš viso interneto. Ateinančiais mėnesiais tikriausiai pamatysime daugiau aukšto lygio partnerysčių, kur DI įmonės mokės už prieigą prie aukštos kokybės, patikrintų duomenų saugyklų.
Vartotojams tai gali reikšti, kad DI atsakymai taps skaidresni, su aiškesnėmis citatomis ir nuorodomis į originalius šaltinius. Pramonei tai reiškia, kad aukščiausios klasės LLM kūrimo kaina gerokai išaugs, nes „nemokami“ duomenų šaltiniai pradės kelti teisinius mokėjimo barjerus.
Keičiantis teisinei aplinkai, štai kaip turėtumėte orientuotis kintančioje aplinkoje:



Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.
/ Sukurti nemokamą paskyrą