Juridiskā vētra ap ģeneratīvo mākslīgo intelektu (MI) ir sasniegusi jaunu virsotni. Encyclopedia Britannica un tās meitasuzņēmums Merriam-Webster ir oficiāli iesnieguši prasību tiesā pret OpenAI, apgalvojot, ka MI giganta modeļi ir ne tikai mācījušies no to plašajām zināšanu krātuvēm, bet arī efektīvi tās „iegaumējuši”.
Šī prasība, kas iesniegta federālajā tiesā pēc Reuters ziņojumiem, iezīmē būtisku eskalāciju esošajā spriedzē starp tradicionālajiem izdevējiem un lielo valodas modeļu (LLM) arhitektiem. Kamēr iepriekšējās autoru un ziņu organizāciju prasības koncentrējās uz apmācības procesu, Britannica lieta izceļ tehniskāku un, iespējams, kaitīgāku fenomenu: gandrīz burtisku patentētu faktu un definīciju „atgremošanu”.
Prasības pamatā ir nošķīrums starp to, vai MI „izprot” koncepciju vai vienkārši saglabā teksta kopiju. Britannica apgalvo, ka GPT-4 pēc pieprasījuma var izvadīt gandrīz identiskas to ar autortiesībām aizsargāto rakstu kopijas. Uzņēmumam, kas vairāk nekā 250 gadus ir kūrējis cilvēces zināšanas, tas nav tikai autortiesību pārkāpums — tas ir tiešs drauds to biznesa modelim.
Lai saprastu šīs situācijas nopietnību, apsveriet analoģiju ar studentu un mācību grāmatu. Ja students izlasa vēstures grāmatu un pēc tam uzraksta oriģinālu eseju, pamatojoties uz uzzināto, tas parasti tiek uzskatīts par transformatīvu izmantošanu. Tomēr, ja šis students iet uz eksāmenu un vārds vārdā noskaita mācību grāmatu, viņš vairs nedemonstrē izpratni; viņš darbojas kā cilvēka fotokopētājs. Britannica apgalvo, ka OpenAI modeļi dara tieši pēdējo.
Prasībā ir sniegti konkrēti piemēri, kuros GPT-4 it kā sniedzis atbildes, kas bija „būtiski līdzīgas” Britannica ierakstiem. LLM pasaulē tas ir pazīstams kā „atgremošana” (regurgitation). Tas notiek, ja modelis tiek tik intensīvi apmācīts ar konkrētu datu kopu, ka neironu tīkla svari tiek noregulēti tā, lai precīzi reproducētu šos datus, kad tiek ievadīti specifiski atslēgvārdi.
Uzņēmumam Merriam-Webster likmes ir tikpat augstas. Vārdnīcu definīcijas pēc būtības ir kodolīgas un specifiskas. Ja MI sniedz definīciju, kas atbilst Merriam-Webster unikālajam formulējumam un strukturālajām niansēm, tas lietotājam liedz nepieciešamību apmeklēt izdevēja tīmekļa vietni. Šī „nulles klikšķu” realitāte atņem reklāmas ieņēmumus un abonēšanas potenciālu tieši tām iestādēm, kas nodrošina augstas kvalitātes datus, uz kuriem balstās MI.
Mēs esam redzējuši līdzīgus gadījumus no The New York Times un dažādiem ievērojamiem rakstniekiem, taču Britannica lieta ir unikāla divu iemeslu dēļ:
Lai gan OpenAI vēl nav publicējis pilnu atspēkojumu šai konkrētajai prasībai, to vēsturiskā aizstāvība joprojām ir konsekventa. Viņi apgalvo, ka MI modeļu apmācība, izmantojot publiski pieejamus interneta datus, ir „godprātīga izmantošana” (fair use). Viņi uzskata, ka modeļi rada kaut ko pilnīgi jaunu — daudzfunkcionālu spriešanas dzinēju —, nevis esošo darbu datubāzi.
OpenAI arī bieži norāda uz „drošības barjerām”, ko tie ir ieviesuši, lai novērstu tieši tāda veida atgremošanu, par ko sūdzas Britannica. Tomēr, kā liecina šī prasība, šīs barjeras var būt caurlaidīgākas, nekā uzņēmums atzīst, jo īpaši, ja lietotāji izmanto specifiskas uzvedņu metodes, lai „izvilktu” apmācības datus.
Viens no sarežģītākajiem šīs juridiskās cīņas aspektiem ir LLM tehniskā realitāte. Tiklīdz modelis ir apmācīts ar datu kopu, šo konkrēto datu „atmacīšanās” ir ārkārtīgi grūta. Tas nav tik vienkārši kā faila dzēšana no cietā diska. Informācija ir izkliedēta pa miljardiem parametru.
Ja tiesa lems par labu Britannica, OpenAI varētu būt spiests darīt vairāk nekā tikai samaksāt naudas sodu. Viņiem varētu tikt pieprasīts agresīvāk filtrēt izvadi vai, tehnoloģiju uzņēmumam sliktākajā gadījumā, pārveidot modeļus no nulles bez apstrīdētajiem datiem — process, kas izmaksātu miljoniem dolāru un prasītu mēnešiem ilgu skaitļošanas laiku.
Šī prasība ir vēstnesis MI „datu licencēšanas” ērai. Mēs attālināmies no „Mežonīgo Rietumu” perioda, kad MI uzņēmumi nesodīti vāca datus no tīmekļa. Tuvākajos mēnešos mēs, visticamāk, redzēsim vairāk augsta līmeņa partnerību, kurās MI firmas maksā par piekļuvi augstas kvalitātes, verificētām datu krātuvēm.
Lietotājiem tas varētu nozīmēt, ka MI atbildes kļūs pārredzamākas, ar skaidrākām citācijām un saitēm uz oriģinālajiem avotiem. Nozarei tas nozīmē, ka augstākā līmeņa LLM izveides izmaksas ievērojami pieaugs, jo „bezmaksas” datu avoti sāks izmantot juridiskus maksas mūrus.
Mainoties juridiskajai videi, lūk, kā jums vajadzētu orientēties šajos apstākļos:



Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.
/ Izveidot bezmaksas kontu