Privaatsuspõhimõtted

Tehisintellekti õigus unustada: miks masinõppe unustamine on järgmine suur privaatsuspiir

Uurige masinõppe unustamise väljakutset ja seda, kuidas õigus olla unustatud sunnib generatiivset tehisintellekti ja suuri keelemudeleid ümber kujundama.
Tehisintellekti õigus unustada: miks masinõppe unustamine on järgmine suur privaatsuspiir
  1. aastal kehtestas Euroopa Kohus märgilise põhimõtte: "õigus olla unustatud". See oli võit inimeste autonoomiale, tagades, et üksikisikud saavad taotleda aegunud või asjakohatu isikuinfo eemaldamist otsingumootorite tulemustest. Kümnendi jooksul tähendas see URL-i kustutamist või andmebaasikirje puhastamist — kirurgilist, binaarset toimingut.

Kuid liikudes sügavamale generatiivse tehisintellekti ajastusse, on see kirurgia muutunud lõpmatult keerukamaks. Täna ei ole meie andmed salvestatud vaid ridadesse ja veergudesse; need on põimitud suurte keelemudelite (LLM) statistilisse koesse. Kui mudel "õpib" teie nägu, teie kirjutamisstiili või teie isiklikku ajalugu, ei salvesta see faili. See kohandab miljardeid matemaatilisi kaale. See nihe staatiliselt salvestamiselt tõenäosuslikule mälule on tekitanud põhimõttelise pinge inimõiguste ja masinate arhitektuuri vahel.

Digitaalse mälu arhitektuur

Mõistmaks, miks "unustamine" on nii keeruline, kujutage ette traditsioonilist andmebaasi kui failikappi. Kui soovite dokumenti eemaldada, tõmbate lihtsalt mapi välja ja purustate selle. Ülejäänud kapp jääb puutumata.

Generatiivne tehisintellekt toimib pigem nagu hiiglaslik supipada. Iga treeningu ajal kasutatud andmekild on leemesse segatud koostisosa. Te ei saa lihtsalt valmis minestronest soola või konkreetset pipratera välja võtta, ilma et muudaksite kogu paja maitset. LLM-is on teie isikuandmed jaotatud üle kogu närvivõrgu. Kuna need parameetrid on üksteisest sõltuvad, nõuab ühe konkreetse isiku mõju eemaldamine sageli mudeli uuesti treenimist nullist — protsess, mis maksab miljoneid dollareid ja nõuab kuid arvutusaega.

Juriidiline kokkupõrkekurss

Reguleerijad on üha vähem nõus aktsepteerima tehnilist vabandust "see on liiga keeruline". Euroopa isikuandmete kaitse üldmääruse (GDPR) ja California CCPA kohaselt on õigus andmete kustutamisele tehnoloogiaülene. Kui mudel suudab hallutsinreerida teie koduaadressi või kopeerida teie erakirjavahetust, siis tehniliselt see mudel töötleb teie andmeid.

Me näeme nihet selles, kuidas kohtud vaatlevad "andmete valdamist". See ei puuduta enam ainult seda, kus fail asub, vaid seda, kuidas süsteem käitub. Kui tehisintellekt suudab taastada tundlikku teavet "liikmelisuse tuletamise rünnete" (membership inference attacks) kaudu — kus häkker küsitleb mudelit, et näha, kas konkreetsed andmed kuulusid selle treeningkomplekti —, siis on privaatsusrisk reaalne, sõltumata sellest, kas toorandmed kustutati treeningu serveritest.

Masinõppe unustamise tõus

Vastusena on tekkinud uus uurimisvaldkond nimega "masinõppe unustamine" (Machine Unlearning). Eesmärk on välja töötada algoritmid, mis suudavad lahutada konkreetsete andmepunktide mõju, ilma et see hävitaks mudeli üldist kasulikkust.

Meetod Kuidas see töötab Plussid Miinused
SISA (Viilutamine) Treenib mudelit väikestes isoleeritud kildudes. Lihtsam on uuesti treenida vaid ühte kildu. Suur salvestusruumi kulu.
Gradiendi puhastamine Pöörab konkreetsete andmete optimeerimissammud tagasi. Kiirem kui täielik uuesti treenimine. Võib halvendada üldist täpsust.
Mõjufunktsioonid Tuvastab, millised neuronid "mäletavad" sihtandmeid. Kõrgelt sihitud. Suurte mudelite puhul arvutuslikult kallis.
Diferentsiaalne privaatsus Lisab treeningu ajal matemaatilist müra. Takistab andmete päheõppimist. Võib muuta mudeli vähem "targaks".

Miks see on oluline identiteedi tuleviku jaoks

Õigus unustada on enamat kui lihtsalt privaatsus; see on õigus areneda. Kui tehisintellekti mudel külmutab jäädavalt versiooni teist, mis põhineb teie viie aasta tagustel andmetel, eitab see teie võimet oma vigadest edasi liikuda või oma avalikku persooni muuta. Maailmas, kus tehisintellektil põhinevad taustakontrollid ja automatiseeritud mainesüsteemid muutuvad normiks, saab masina võimetusest unustada eluaegne digitaalne pagas.

Praktilised sammud organisatsioonidele ja kasutajatele

Selle ülemineku ajal peavad nii arendajad kui ka andmesubjektid võtma kasutusele uusi strateegiaid digitaalse jalajälje haldamiseks tehisintellekti ajastul.

Arendajatele ja ettevõtetele:

  • Rakendage andmete versioonihaldust: Jälgige täpselt, milliseid andmekogumeid milliste mudeli iteratsioonide jaoks kasutati, et võimaldada sihitud uuendusi.
  • Kasutage privaatsust säilitavat treeningut: Kasutage tehnikaid nagu liitõpe (federated learning) või diferentsiaalne privaatsus, et tagada, et üksikud andmepunktid ei muutuks kunagi mudeli "kandvateks" osadeks.
  • Disainige modulaarsust: Liikuge monoliitsetelt mudelitelt "ekspertide segu" (mixture-of-experts) arhitektuuride poole, kus konkreetseid teadmuskomponente saab vahetada või välja lülitada.

Üksikisikutele:

  • Auditeerige oma avalikku jalajälge: Kasutage tööriistu, et jälgida, kus teie isikuandmed ilmuvad avalikes treeningkomplektides (nagu Common Crawl).
  • Kasutage loobumisõigust: Paljud tehisintellekti pakkujad, sealhulgas OpenAI ja Google, pakuvad nüüd vorme, et taotleda oma andmete välistamist tulevastest treeningtsüklitest.
  • Kasutage mürgitamistööriistu: Kunstnike ja loojate jaoks võivad tööriistad nagu Nightshade või Glaze digitaalseid faile peenelt muuta, et takistada tehisintellekti mudelitel nende stiili täpset omandamist.

Tee edasi

Generatiivsete süsteemide kooskõlastamine inimõigustega nõuab nihket selles, kuidas me tehnoloogiat ehitame. Me ei saa käsitleda tehisintellekti kui peatamatut loodusjõudu; see on inimeste loodud tööriist ja see peab jääma allutatuks inimväärikusele. Õigus unustada on esimene samm tagamaks, et kuigi masinatel võib olla lõpmatu mälu, ei jää neile viimane sõna selles, kes me oleme.

Allikad

  • European Data Protection Board (EDPB) - Guidelines on the Right to be Forgotten
  • Journal of Artificial Intelligence Research - A Survey of Machine Unlearning
  • NIST AI Risk Management Framework
  • Stanford University - Foundation Models and Privacy Risks
bg
bg
bg

Kohtumiseni teisel poolel.

Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.

/ Tasuta konto loomin