Tööstusuudised

Lahing tõeallika pärast: miks Encyclopedia Britannica kaebab OpenAI kohtusse

Encyclopedia Britannica ja Merriam-Webster kaebavad OpenAI kohtusse, väites, et ChatGPT on autoriõigusega kaitstud sisu meelde jätnud ja taastootnud. Uurige õiguslikku ja tehnoloogilist mõju.
Lahing tõeallika pärast: miks Encyclopedia Britannica kaebab OpenAI kohtusse

Generatiivset tehisintellekti ümbritsev õigustorm on jõudnud uude haripunkti. Encyclopedia Britannica ja selle tütarettevõte Merriam-Webster on ametlikult esitanud hagi OpenAI vastu, väites, et tehisintellekti hiiu mudelid pole mitte ainult õppinud nende tohututest teadmiste hoidlatest, vaid on need tõhusalt „pähe õppinud“.

See Reutersi teadete kohaselt föderaalkohtusse esitatud hagi tähistab olulist eskaleerumist pingeis traditsiooniliste kirjastajate ja suurte keelemudelite (LLM) arhitektide vahel. Kuigi varasemad autorite ja uudisteorganisatsioonide hagid keskendusid treenimisprotsessile, rõhutab Britannica juhtum tehnilisemat ja võib-olla kahjulikumat nähtust: patenteeritud faktide ja definitsioonide peaaegu sõna-sõnalist taasesitamist.

Konflikti tuum: meeldejätmine vs õppimine

Kaebuse keskmes on eristus tehisintellekti kontseptsioonist „arusaamine“ ja lihtsalt teksti koopia salvestamise vahel. Britannica väidab, et GPT-4 suudab nõudmisel väljastada peaaegu identseid koopiaid nende autoriõigusega kaitstud artiklitest. Ettevõtte jaoks, mis on üle 250 aasta kureerinud inimteadmisi, ei ole see lihtsalt autoriõiguse rikkumine — see on otsene oht nende ärimudelile.

Selle tõsiduse mõistmiseks kaaluge analoogiat õpilase ja õpiku kohta. Kui õpilane loeb ajalooraamatut ja kirjutab seejärel õpitu põhjal originaalse essee, peetakse seda üldiselt transformatiivseks kasutuseks. Kui aga see õpilane läheb eksamile ja kordab õpikut sõna-sõnalt, ei demonstreeri ta enam arusaamist; ta tegutseb kui inim-paljundusmasin. Britannica väidab, et OpenAI mudelid teevad just viimast.

Tõendid „tagasipurskamise“ kohta

Hagi toob konkreetseid näiteid, kus GPT-4 esitas väidetavalt vastuseid, mis olid „oluliselt sarnased“ Britannica sissekannetega. Suurte keelemudelite maailmas tuntakse seda kui „regurgitation“ ehk tagasipurskamist. See juhtub siis, kui mudelit treenitakse nii intensiivselt konkreetsel andmestikul, et närvivõrgu kaalud häälestuvad neid andmeid täpselt taastootma, kui neile antakse konkreetsed märksõnad.

Merriam-Websteri jaoks on panused samavõrd kõrged. Sõnastiku definitsioonid on paratamatult lühidad ja konkreetsed. Kui tehisintellekt pakub definitsiooni, mis ühtib Merriam-Websteri unikaalse sõnastuse ja struktuuriliste nüanssidega, kaob kasutajal vajadus külastada kirjastaja veebisaiti. See „null-kliki“ reaalsus viib reklaamitulu ja tellimuspotentsiaali just nendelt asutustelt, mis pakuvad kvaliteetseid andmeid, millele tehisintellekt toetub.

Miks see kohtuasi on teistsugune

Oleme näinud sarnaseid juhtumeid ajalehelt The New York Times ja mitmetelt tuntud romaanikirjanikelt, kuid Britannica juhtum on ainulaadne kahel põhjusel:

  1. Andmete olemus: Erinevalt romaanist, mis on kaitstud loomingulise väljendusega, on entsüklopeedia faktide kogum. Kuigi fakte endid ei saa autoriõigusega kaitsta, saab kaitsta nende faktide valikut ja paigutust. Britannica väidab, et OpenAI on omastanud spetsiifilise struktuuri ja sünteesi, mis muudab nende sissekanded autoriteetseks.
  2. „Tõeallika“ probleem: OpenAI positsioneerib ChatGPT-d kui assistenti, mis pakub faktilist teavet. Kui see teave pärineb otse Britannicast ilma viitamise või hüvitiseta, müüb OpenAI sisuliselt Britannica mainet täpsuse osas kui omaenda toodet.

OpenAI tõenäoline kaitse: õiglane kasutamine ja transformatsioon

Kuigi OpenAI ei ole veel avaldanud täielikku vastulauset sellele konkreetsele hagile, jääb nende ajalooline kaitse järjepidevaks. Nad väidavad, et tehisintellekti mudelite treenimine avalikult kättesaadavatel internetiandmetel kujutab endast „õiglast kasutamist“. Nad väidavad, et mudelid loovad midagi täiesti uut — mitmeotstarbelise päättimismootori —, mitte olemasolevate teoste andmebaasi.

OpenAI viitab sageli ka „kaitsepiiretele“, mida nad on rakendanud, et vältida just sellist tagasipurskamist, mille üle Britannica kaebab. Kuid nagu see kohtuasi viitab, võivad need piirded olla läbilaskvamad, kui ettevõte tunnistab, eriti kui kasutajad rakendavad spetsiifilisi meetodeid treeningandmete „väljapressimiseks“.

„Unustamise“ tehniline väljakutse

Selle õiguslahingu üks keerulisemaid aspekte on suurte keelemudelite tehniline tegelikkus. Kui mudel on andmestikul treenitud, on nende konkreetsete andmete „unustamine“ kurikuulsalt raske. See ei ole nii lihtne kui faili kustutamine kõvakettalt. Teave on hajutatud miljardite parameetrite vahel.

Kui kohus teeb otsuse Britannica kasuks, võib OpenAI olla sunnitud tegema enamat kui lihtsalt trahvi maksma. Neilt võidakse nõuda väljundite agressiivsemat filtreerimist või tehnoloogiaettevõtte jaoks halvimas stsenaariumis mudelite uuesti treenimist nullist ilma vaidlusaluste andmeteta — protsess, mis maksaks miljoneid dollareid ja nõuaks kuid arvutusaega.

Mida see tähendab tehisintellekti tuleviku jaoks

See kohtuasi on tehisintellekti „andmelitsentsimise“ ajastu suunanäitaja. Me liigume eemale „Metsiku Lääne“ perioodist, kus tehisintellekti ettevõtted kraapisid veebi karistamatult. Lähikuudel näeme tõenäoliselt rohkem kõrgetasemelisi partnerlusi, kus tehisintellekti firmad maksavad juurdepääsu eest kvaliteetsetele ja kontrollitud andmehoidlatele.

Kasutajate jaoks võib see tähendada, et tehisintellekti vastused muutuvad läbipaistvamaks, sisaldades selgemaid tsitaate ja linke algallikatele. Tööstuse jaoks tähendab see, et tipptasemel keelemudeli ehitamise hind tõuseb märkimisväärselt, kuna „tasuta“ andmeallikad hakkavad seadma juriidilisi maksumüüre.

Praktilised nõuanded ettevõtetele ja loojatele

Kuna õigusmaastik muutub, siis siin on juhised, kuidas muutuvas keskkonnas navigeerida:

  • Kontrollige tehisintellekti väljundeid: Kui kasutate tehisintellekti faktiliseks uurimistööks, võrrelge teavet algallikatega. „Meeldejätmise“ probleem tõestab, et tehisintellekt võib mõnikord esitada autoriõigusega kaitstud materjali omaenda originaalse mõttena.
  • Austage litsentsimist: Kui ehitate tööriistu, kasutades suurte keelemudelite API-sid, olge teadlikud, et treeningandmete õiguslik staatus on endiselt muutumises. Veenduge, et teie kasutusjuhtumid ei soodustaks tahtmatult autoriõiguste rikkumist.
  • Jälgige precedent: Britannica vs OpenAI juhtumi tulemus seab tõenäoliselt standardi sellele, kuidas „faktilist“ sisu tehisintellekti ajastul koheldakse. Britannica võit võib viia killustatumale, tasulisele infoökosüsteemile.

Allikad

  • Reuters: Encyclopedia Britannica and Merriam-Webster sue OpenAI over copyright
  • U.S. Copyright Office: Artificial Intelligence and Copyright Public Inquiries
  • OpenAI Blog: Our approach to data and privacy in the age of AI
bg
bg
bg

Kohtumiseni teisel poolel.

Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.

/ Tasuta konto loomin