Generatiivset tehisintellekti ümbritsev õigustorm on jõudnud uude haripunkti. Encyclopedia Britannica ja selle tütarettevõte Merriam-Webster on ametlikult esitanud hagi OpenAI vastu, väites, et tehisintellekti hiiu mudelid pole mitte ainult õppinud nende tohututest teadmiste hoidlatest, vaid on need tõhusalt „pähe õppinud“.
See Reutersi teadete kohaselt föderaalkohtusse esitatud hagi tähistab olulist eskaleerumist pingeis traditsiooniliste kirjastajate ja suurte keelemudelite (LLM) arhitektide vahel. Kuigi varasemad autorite ja uudisteorganisatsioonide hagid keskendusid treenimisprotsessile, rõhutab Britannica juhtum tehnilisemat ja võib-olla kahjulikumat nähtust: patenteeritud faktide ja definitsioonide peaaegu sõna-sõnalist taasesitamist.
Kaebuse keskmes on eristus tehisintellekti kontseptsioonist „arusaamine“ ja lihtsalt teksti koopia salvestamise vahel. Britannica väidab, et GPT-4 suudab nõudmisel väljastada peaaegu identseid koopiaid nende autoriõigusega kaitstud artiklitest. Ettevõtte jaoks, mis on üle 250 aasta kureerinud inimteadmisi, ei ole see lihtsalt autoriõiguse rikkumine — see on otsene oht nende ärimudelile.
Selle tõsiduse mõistmiseks kaaluge analoogiat õpilase ja õpiku kohta. Kui õpilane loeb ajalooraamatut ja kirjutab seejärel õpitu põhjal originaalse essee, peetakse seda üldiselt transformatiivseks kasutuseks. Kui aga see õpilane läheb eksamile ja kordab õpikut sõna-sõnalt, ei demonstreeri ta enam arusaamist; ta tegutseb kui inim-paljundusmasin. Britannica väidab, et OpenAI mudelid teevad just viimast.
Hagi toob konkreetseid näiteid, kus GPT-4 esitas väidetavalt vastuseid, mis olid „oluliselt sarnased“ Britannica sissekannetega. Suurte keelemudelite maailmas tuntakse seda kui „regurgitation“ ehk tagasipurskamist. See juhtub siis, kui mudelit treenitakse nii intensiivselt konkreetsel andmestikul, et närvivõrgu kaalud häälestuvad neid andmeid täpselt taastootma, kui neile antakse konkreetsed märksõnad.
Merriam-Websteri jaoks on panused samavõrd kõrged. Sõnastiku definitsioonid on paratamatult lühidad ja konkreetsed. Kui tehisintellekt pakub definitsiooni, mis ühtib Merriam-Websteri unikaalse sõnastuse ja struktuuriliste nüanssidega, kaob kasutajal vajadus külastada kirjastaja veebisaiti. See „null-kliki“ reaalsus viib reklaamitulu ja tellimuspotentsiaali just nendelt asutustelt, mis pakuvad kvaliteetseid andmeid, millele tehisintellekt toetub.
Oleme näinud sarnaseid juhtumeid ajalehelt The New York Times ja mitmetelt tuntud romaanikirjanikelt, kuid Britannica juhtum on ainulaadne kahel põhjusel:
Kuigi OpenAI ei ole veel avaldanud täielikku vastulauset sellele konkreetsele hagile, jääb nende ajalooline kaitse järjepidevaks. Nad väidavad, et tehisintellekti mudelite treenimine avalikult kättesaadavatel internetiandmetel kujutab endast „õiglast kasutamist“. Nad väidavad, et mudelid loovad midagi täiesti uut — mitmeotstarbelise päättimismootori —, mitte olemasolevate teoste andmebaasi.
OpenAI viitab sageli ka „kaitsepiiretele“, mida nad on rakendanud, et vältida just sellist tagasipurskamist, mille üle Britannica kaebab. Kuid nagu see kohtuasi viitab, võivad need piirded olla läbilaskvamad, kui ettevõte tunnistab, eriti kui kasutajad rakendavad spetsiifilisi meetodeid treeningandmete „väljapressimiseks“.
Selle õiguslahingu üks keerulisemaid aspekte on suurte keelemudelite tehniline tegelikkus. Kui mudel on andmestikul treenitud, on nende konkreetsete andmete „unustamine“ kurikuulsalt raske. See ei ole nii lihtne kui faili kustutamine kõvakettalt. Teave on hajutatud miljardite parameetrite vahel.
Kui kohus teeb otsuse Britannica kasuks, võib OpenAI olla sunnitud tegema enamat kui lihtsalt trahvi maksma. Neilt võidakse nõuda väljundite agressiivsemat filtreerimist või tehnoloogiaettevõtte jaoks halvimas stsenaariumis mudelite uuesti treenimist nullist ilma vaidlusaluste andmeteta — protsess, mis maksaks miljoneid dollareid ja nõuaks kuid arvutusaega.
See kohtuasi on tehisintellekti „andmelitsentsimise“ ajastu suunanäitaja. Me liigume eemale „Metsiku Lääne“ perioodist, kus tehisintellekti ettevõtted kraapisid veebi karistamatult. Lähikuudel näeme tõenäoliselt rohkem kõrgetasemelisi partnerlusi, kus tehisintellekti firmad maksavad juurdepääsu eest kvaliteetsetele ja kontrollitud andmehoidlatele.
Kasutajate jaoks võib see tähendada, et tehisintellekti vastused muutuvad läbipaistvamaks, sisaldades selgemaid tsitaate ja linke algallikatele. Tööstuse jaoks tähendab see, et tipptasemel keelemudeli ehitamise hind tõuseb märkimisväärselt, kuna „tasuta“ andmeallikad hakkavad seadma juriidilisi maksumüüre.
Kuna õigusmaastik muutub, siis siin on juhised, kuidas muutuvas keskkonnas navigeerida:



Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.
/ Tasuta konto loomin