Nozaru jaunumi

Cīņa par patiesības avotu: kāpēc Encyclopedia Britannica sūdz tiesā OpenAI

Encyclopedia Britannica un Merriam-Webster sūdz tiesā OpenAI, apgalvojot, ka ChatGPT ir iegaumējis un reproducējis ar autortiesībām aizsargātu saturu. Izpētiet juridisko un tehnisko ietekmi.
Cīņa par patiesības avotu: kāpēc Encyclopedia Britannica sūdz tiesā OpenAI

Juridiskā vētra ap ģeneratīvo mākslīgo intelektu (MI) ir sasniegusi jaunu virsotni. Encyclopedia Britannica un tās meitasuzņēmums Merriam-Webster ir oficiāli iesnieguši prasību tiesā pret OpenAI, apgalvojot, ka MI giganta modeļi ir ne tikai mācījušies no to plašajām zināšanu krātuvēm, bet arī efektīvi tās „iegaumējuši”.

Šī prasība, kas iesniegta federālajā tiesā pēc Reuters ziņojumiem, iezīmē būtisku eskalāciju esošajā spriedzē starp tradicionālajiem izdevējiem un lielo valodas modeļu (LLM) arhitektiem. Kamēr iepriekšējās autoru un ziņu organizāciju prasības koncentrējās uz apmācības procesu, Britannica lieta izceļ tehniskāku un, iespējams, kaitīgāku fenomenu: gandrīz burtisku patentētu faktu un definīciju „atgremošanu”.

Konflikta būtība: iegaumēšana pret mācīšanos

Prasības pamatā ir nošķīrums starp to, vai MI „izprot” koncepciju vai vienkārši saglabā teksta kopiju. Britannica apgalvo, ka GPT-4 pēc pieprasījuma var izvadīt gandrīz identiskas to ar autortiesībām aizsargāto rakstu kopijas. Uzņēmumam, kas vairāk nekā 250 gadus ir kūrējis cilvēces zināšanas, tas nav tikai autortiesību pārkāpums — tas ir tiešs drauds to biznesa modelim.

Lai saprastu šīs situācijas nopietnību, apsveriet analoģiju ar studentu un mācību grāmatu. Ja students izlasa vēstures grāmatu un pēc tam uzraksta oriģinālu eseju, pamatojoties uz uzzināto, tas parasti tiek uzskatīts par transformatīvu izmantošanu. Tomēr, ja šis students iet uz eksāmenu un vārds vārdā noskaita mācību grāmatu, viņš vairs nedemonstrē izpratni; viņš darbojas kā cilvēka fotokopētājs. Britannica apgalvo, ka OpenAI modeļi dara tieši pēdējo.

Pierādījumi par „atgremošanu”

Prasībā ir sniegti konkrēti piemēri, kuros GPT-4 it kā sniedzis atbildes, kas bija „būtiski līdzīgas” Britannica ierakstiem. LLM pasaulē tas ir pazīstams kā „atgremošana” (regurgitation). Tas notiek, ja modelis tiek tik intensīvi apmācīts ar konkrētu datu kopu, ka neironu tīkla svari tiek noregulēti tā, lai precīzi reproducētu šos datus, kad tiek ievadīti specifiski atslēgvārdi.

Uzņēmumam Merriam-Webster likmes ir tikpat augstas. Vārdnīcu definīcijas pēc būtības ir kodolīgas un specifiskas. Ja MI sniedz definīciju, kas atbilst Merriam-Webster unikālajam formulējumam un strukturālajām niansēm, tas lietotājam liedz nepieciešamību apmeklēt izdevēja tīmekļa vietni. Šī „nulles klikšķu” realitāte atņem reklāmas ieņēmumus un abonēšanas potenciālu tieši tām iestādēm, kas nodrošina augstas kvalitātes datus, uz kuriem balstās MI.

Kāpēc šī prasība ir atšķirīga

Mēs esam redzējuši līdzīgus gadījumus no The New York Times un dažādiem ievērojamiem rakstniekiem, taču Britannica lieta ir unikāla divu iemeslu dēļ:

  1. Datu raksturs: Atšķirībā no romāna, ko aizsargā radošā izpausme, enciklopēdija ir faktu kopums. Lai gan paši fakti nevar būt aizsargāti ar autortiesībām, šo faktu atlase un izkārtojums var būt. Britannica apgalvo, ka OpenAI ir pārņēmis specifisko struktūru un sintēzi, kas padara to ierakstus autoritatīvus.
  2. „Patiesības avota” problēma: OpenAI pozicionē ChatGPT kā asistentu, kas sniedz faktisku informāciju. Ja šī informācija tiek iegūta tieši no Britannica bez atsaucēm vai kompensācijas, OpenAI būtībā pārdod Britannica reputāciju attiecībā uz precizitāti kā savu produktu.

OpenAI iespējamā aizstāvība: godprātīga izmantošana un transformācija

Lai gan OpenAI vēl nav publicējis pilnu atspēkojumu šai konkrētajai prasībai, to vēsturiskā aizstāvība joprojām ir konsekventa. Viņi apgalvo, ka MI modeļu apmācība, izmantojot publiski pieejamus interneta datus, ir „godprātīga izmantošana” (fair use). Viņi uzskata, ka modeļi rada kaut ko pilnīgi jaunu — daudzfunkcionālu spriešanas dzinēju —, nevis esošo darbu datubāzi.

OpenAI arī bieži norāda uz „drošības barjerām”, ko tie ir ieviesuši, lai novērstu tieši tāda veida atgremošanu, par ko sūdzas Britannica. Tomēr, kā liecina šī prasība, šīs barjeras var būt caurlaidīgākas, nekā uzņēmums atzīst, jo īpaši, ja lietotāji izmanto specifiskas uzvedņu metodes, lai „izvilktu” apmācības datus.

Tehniskais izaicinājums — „atmacīšanās”

Viens no sarežģītākajiem šīs juridiskās cīņas aspektiem ir LLM tehniskā realitāte. Tiklīdz modelis ir apmācīts ar datu kopu, šo konkrēto datu „atmacīšanās” ir ārkārtīgi grūta. Tas nav tik vienkārši kā faila dzēšana no cietā diska. Informācija ir izkliedēta pa miljardiem parametru.

Ja tiesa lems par labu Britannica, OpenAI varētu būt spiests darīt vairāk nekā tikai samaksāt naudas sodu. Viņiem varētu tikt pieprasīts agresīvāk filtrēt izvadi vai, tehnoloģiju uzņēmumam sliktākajā gadījumā, pārveidot modeļus no nulles bez apstrīdētajiem datiem — process, kas izmaksātu miljoniem dolāru un prasītu mēnešiem ilgu skaitļošanas laiku.

Ko tas nozīmē MI nākotnei

Šī prasība ir vēstnesis MI „datu licencēšanas” ērai. Mēs attālināmies no „Mežonīgo Rietumu” perioda, kad MI uzņēmumi nesodīti vāca datus no tīmekļa. Tuvākajos mēnešos mēs, visticamāk, redzēsim vairāk augsta līmeņa partnerību, kurās MI firmas maksā par piekļuvi augstas kvalitātes, verificētām datu krātuvēm.

Lietotājiem tas varētu nozīmēt, ka MI atbildes kļūs pārredzamākas, ar skaidrākām citācijām un saitēm uz oriģinālajiem avotiem. Nozarei tas nozīmē, ka augstākā līmeņa LLM izveides izmaksas ievērojami pieaugs, jo „bezmaksas” datu avoti sāks izmantot juridiskus maksas mūrus.

Praktiski ieteikumi uzņēmumiem un radītājiem

Mainoties juridiskajai videi, lūk, kā jums vajadzētu orientēties šajos apstākļos:

  • Pārbaudiet MI izvadi: Ja izmantojat MI faktiskai izpētei, salīdziniet informāciju ar primārajiem avotiem. „Iegaumēšanas” problēma pierāda, ka MI dažkārt var pasniegt ar autortiesībām aizsargātu materiālu kā savu oriģinālo domu.
  • Ievērojiet licencēšanu: Ja veidojat rīkus, izmantojot LLM API, apzinieties, ka apmācības datu juridiskais statuss joprojām ir mainīgs. Nodrošiniet, lai jūsu lietošanas gadījumi nejauši neveicinātu autortiesību pārkāpumus.
  • Sekojiet precedentam: Britannica pret OpenAI lietas iznākums, visticamāk, noteiks standartu tam, kā MI laikmetā tiek apstrādāts „faktiskais” saturs. Britannica uzvara varētu novest pie sadrumstalotākas informācijas ekosistēmas, kurā par visu ir jāmaksā.

Avoti

  • Reuters: Encyclopedia Britannica and Merriam-Webster sue OpenAI over copyright
  • U.S. Copyright Office: Artificial Intelligence and Copyright Public Inquiries
  • OpenAI Blog: Our approach to data and privacy in the age of AI
bg
bg
bg

Uz tikšanos otrā pusē.

Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.

/ Izveidot bezmaksas kontu