Privatumo principai

DI teisė būti pamirštam: kodėl mašininis pamiršimas yra kita didžioji privatumo riba

Išnagrinėkite „mašininio pamiršimo“ iššūkį ir tai, kaip teisė būti pamirštam verčia iš naujo projektuoti generatyvinį DI bei didžiuosius kalbos modelius.
DI teisė būti pamirštam: kodėl mašininis pamiršimas yra kita didžioji privatumo riba

2014 m. Europos Sąjungos Teisingumo Teismas nustatė svarbų principą: „teisę būti pamirštam“. Tai buvo pergalė žmogaus autonomijai, užtikrinanti, kad asmenys galėtų prašyti pašalinti pasenusią ar neaktualią asmeninę informaciją iš paieškos sistemų rezultatų. Dešimtmetį tai reiškė URL adreso ištrynimą arba įrašo duomenų bazėje panaikinimą – chirurginę, binarinę operaciją.

Tačiau žengiant giliau į generatyvinio DI erą, ši „chirurgija“ tapo nepalyginamai sudėtingesnė. Šiandien mūsų duomenys nėra tiesiog saugomi eilutėse ir stulpeliuose; jie yra įausti į statistinį didžiųjų kalbos modelių (angl. LLM) audinį. Kai modelis „išmoksta“ jūsų veidą, rašymo stilių ar asmeninę istoriją, jis neišsaugo failo. Jis pakoreguoja milijardus matematinių svorių. Šis perėjimas nuo statinės saugyklos prie tikimybinės atminties sukūrė esminę įtampą tarp žmogaus teisių ir mašinų architektūros.

Skaitmeninės atminties architektūra

Norėdami suprasti, kodėl „išmoktų dalykų pamiršimas“ yra toks sudėtingas, įsivaizduokite tradicinę duomenų bazę kaip dokumentų spintą. Jei norite pašalinti dokumentą, tiesiog ištraukiate aplanką ir jį susmulkinate. Likusi spintos dalis lieka nepaliesta.

Generatyvinis DI veikia labiau kaip milžiniškas sriubos katilas. Kiekvienas mokymui naudojamas duomenų fragmentas yra į sultinį įmaišytas ingredientas. Negalite tiesiog įkišti rankos į paruoštą minestronę ir ištraukti druskos ar konkretaus pipiro grūdelio nepakeisdami viso puodo skonio. LLM modelyje jūsų asmeniniai duomenys yra paskirstyti po visą neuroninį tinklą. Kadangi šie parametrai yra tarpusavyje priklausomi, norint pašalinti vieno konkretaus asmens įtaką, dažnai reikia iš naujo apmokyti modelį nuo nulio – procesas, kainuojantis milijonus dolerių ir reikalaujantis mėnesių skaičiavimo laiko.

Teisinis susidūrimas

Reguliuotojai vis rečiau linkę priimti pasiteisinimą „tai per sunku“ kaip techninę priežastį. Pagal BDAR Europoje ir CCPA Kalifornijoje, teisė į duomenų ištrynimą nepriklauso nuo technologijos. Jei modelis gali sugeneruoti jūsų namų adresą arba atkurti jūsų asmeninį susirašinėjimą, tas modelis techniškai apdoroja jūsų duomenis.

Matome pokytį tame, kaip teismai vertina „duomenų valdymą“. Svarbu ne tik tai, kur guli failas, bet ir tai, kaip elgiasi sistema. Jei DI gali atkurti jautrią informaciją per „narystės nustatymo攻击“ (angl. membership inference attacks) – kai įsilaužėlis tiria modelį, norėdamas sužinoti, ar konkretūs duomenys buvo jo mokymo rinkinio dalis – tada privatumo rizika yra reali, nepaisant to, ar pirminiai duomenys buvo ištrinti iš mokymo serverių.

Mašininio pamiršimo iškilimas

Reaguojant į tai, atsirado nauja tyrimų sritis, vadinama „mašininiu pamiršimu“ (angl. Machine Unlearning). Tikslas – sukurti algoritmus, kurie galėtų atimti konkrečių duomenų taškų įtaką nesunaikindami bendro modelio naudingumo.

Metodas Kaip tai veikia Pliusai Minusai
SISA (pjaustymas) Apmoko modelį mažomis, izoliuotomis dalimis. Lengviau iš naujo apmokyti tik vieną dalį. Didelės saugyklos sąnaudos.
Gradiento valymas Atšaukia optimizavimo žingsnius konkretiems duomenims. Greičiau nei pilnas perorientavimas. Gali pabloginti bendrą tikslumą.
Įtakos funkcijos Identifikuoja, kurie neuronai „atsimena“ tikslinius duomenis. Labai tikslus. Reikalauja daug skaičiavimo resursų dideliems modeliams.
Diferencialinis privatumas Mokymo metu prideda matematinį triukšmą. Neleidžia modeliui „įsiminti“ duomenų. Gali padaryti modelį mažiau „protingą“.

Kodėl tai svarbu tapatybės ateičiai

Teisė pamiršti yra daugiau nei tik privatumas; tai teisė evoliucionuoti. Jei DI modelis visam laikui užfiksuoja jūsų versiją, pagrįstą prieš penkerius metus gautais duomenimis, jis atima iš jūsų galimybę palikti klaidas praeityje ar pakeisti savo viešąjį įvaizdį. Pasaulyje, kuriame DI valdomi praeities patikrinimai ir automatizuotos reputacijos sistemos tampa norma, mašinos nesugebėjimas pamiršti tampa skaitmeninio bagažo nuosprendžiu iki gyvos galvos.

Praktiniai žingsniai organizacijoms ir vartotojams

Eidami per šį perėjimą, tiek kūrėjai, tiek duomenų subjektai privalo taikyti naujas strategijas skaitmeniniams pėdsakams valdyti DI amžiuje.

Kūrėjams ir verslui:

  • Įdiekite duomenų versijavimą: Tiksliai sekite, kurie duomenų rinkiniai buvo naudojami kurioms modelio iteracijoms, kad būtų įmanomi tiksliniai atnaujinimai.
  • Taikykite privatumą tausojantį mokymą: Naudokite tokius metodus kaip jungtinis mokymasis (angl. federated learning) arba diferencialinis privatumas, kad atskiri duomenų taškai niekada netaptų „laikančiosiomis“ modelio dalimis.
  • Projektuokite moduliškumą: Pereikite nuo monolitinių modelių prie „ekspertų mišinio“ (angl. mixture-of-experts) architektūrų, kuriose specifinius žinių komponentus galima sukeisti arba išjungti.

Fiziniams asmenims:

  • Audituokite savo viešąjį pėdsaką: Naudokite įrankius, kad stebėtumėte, kur jūsų asmeniniai duomenys pasirodo viešuose mokymo rinkiniuose (pavyzdžiui, „Common Crawl“).
  • Naudokitės teise atsisakyti: Daugelis DI paslaugų teikėjų, įskaitant „OpenAI“ ir „Google“, dabar siūlo formas, leidžiančias prašyti, kad jūsų duomenys būtų neįtraukti į būsimus mokymo ciklus.
  • Naudokite „nuodijimo“ įrankius: Menininkams ir kūrėjams tokie įrankiai kaip „Nightshade“ ar „Glaze“ gali subtiliai pakeisti skaitmeninius failus, kad DI modeliai negalėtų tiksliai išmokti jų stiliaus.

Kelias į priekį

Norint suderinti generatyvines sistemas su žmogaus teisėmis, reikia pakeisti technologijų kūrimo būdą. Negalime vertinti DI kaip nesustabdomos gamtos jėgos; tai žmonių sukurtas įrankis, ir jis privalo tarnauti žmogaus orumui. Teisė būti pamirštam yra pirmas žingsnis užtikrinant, kad nors mašinos gali turėti begalinę atmintį, jos neturėtų paskutinio žodžio sprendžiant, kas mes esame.

Šaltiniai

  • European Data Protection Board (EDPB) - Guidelines on the Right to be Forgotten
  • Journal of Artificial Intelligence Research - A Survey of Machine Unlearning
  • NIST AI Risk Management Framework
  • Stanford University - Foundation Models and Privacy Risks
bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą