Võidujooks tehisintellekti ülemvõimu pärast on astunud uude vaidlusalusesse peatükki. Samal ajal kui maailm jälgib üha võimsamate suurte keelemudelite (LLM) väljatulekut, peetakse varisõda just nende treenimiseks kasutatavate andmete üle. Mitmetes jahmatavates raportites on juhtivad Ameerika tehisintellekti ettevõtted — sealhulgas Anthropic, OpenAI ja Google — süüdistanud mitmeid tuntud Hiina tehisintellekti idufirmasid aastatepikkusest uurimistööst ja miljardite dollarite suurustest investeeringutest möödahiilimises, kasutades tehnikat, mida tuntakse kui „destilleerimisrünnakut“ (distillation attack).
Viimase vastuolu keskmes on Anthropic, Claude'i mudeliseeria looja. Ettevõte avalikustas hiljuti, et tuvastas massiivse ja koordineeritud katse oma intellektuaalomandi varastamiseks. Anthropicu sõnul kasutasid ettevõtted, sealhulgas DeepSeek, Moonshot AI ja MiniMax, väidetavalt üle 24 000 võltskonto, et luua Claude'iga rohkem kui 16 miljonit vestlust. Eesmärk? Kasutada Claude'i keerukat arutlusvõimet ja loogikat, et treenida oma konkureerivaid mudeleid murdosa kuluga.
Mõistmaks, miks need süüdistused on nii olulised, peab tundma mudeli destilleerimise kontseptsiooni. Seaduslikus uurimistöö kontekstis on destilleerimine tavaline tehnika, kus väiksemat ja tõhusamat „õpilasmudelit“ treenitakse jäljendama suurema ja keerukama „õpetajamudeli“ käitumist. See võimaldab arendajatel luua kiiret ja kerget tehisintellekti, mis suudab töötada nutitelefonides või kohalikus riistvaras, säilitades samal ajal suure osa massiivse andmekeskuse tasemega mudeli intelligentsusest.
Kuid destilleerimisrünnak toimub siis, kui konkurent kasutab rivaali mudeli API-t (rakendusliidest), et süstemaatiliselt ammutada selle teadmisi ilma loata. Mõelge sellest kui õpilasest, kes selle asemel, et uurida algseid õpikuid ja teha laboritööd, salvestab lihtsalt iga sõna, mida maailmatasemel professor ütleb, ja kasutab neid salvestisi konkureeriva kursuse koostamiseks. Õpilane säästab aastaid vaeva ja miljoneid õppemaksult, samal ajal kui professori algupärane töö devalveerub.
Anthropicu teatatud tegevuse tohutu ulatus viitab kõrgelt industrialiseeritud operatsioonile. Luues 24 000 eraldi kontot, püüdsid ründajad tõenäoliselt hiilida mööda „päringupiirangutest“ (rate limits) — turvapiduritest, mille tehisintellekti ettevõtted on seadnud, et takistada üksikutel kasutajatel ressursse omastamast või andmeid kraapimast.
Hajutades 16 miljonit päringut nende kontode vahel, kogusid Hiina ettevõtted väidetavalt massiivse andmestiku kvaliteetsetest „sünteetilistest andmetest“. Need andmed on eriti väärtuslikud, kuna sisaldavad „mõtteahela“ (chain-of-thought) arutluskäike, mille poolest mudelid nagu Claude 3.5 ja Claude 4 on tuntud. Selliste ettevõtete jaoks nagu DeepSeek või Moonshot AI toimivad need kogutud andmed otseteena, võimaldades neil ületada lõhe oma praeguste võimekuste ja tipptaseme vahel ilma algse avastustöö astronoomiliste kuludeta.
Anthropic ei ole oma kaebustega üksi. Selle kuu alguses väljastasid OpenAI ja Google sarnaseid hoiatusi, märkides, et nende patenteeritud mudeleid päriti mustritega, mis viitasid automatiseeritud andmete kogumisele Hiina tehnoloogiasektoriga seotud üksuste poolt.
See suundumus rõhutab kasvavat meeleheidet globaalses tehisintellekti võidujooksus. Kuna USA valitsus karmistab ekspordikontrolli tipptasemel NVIDIA kiipidele — riistvarale, mis on hädavajalik tehisintellekti treenimiseks —, seisavad Hiina ettevõtted silmitsi „arvutusressursside nappusega“. Kui nad ei pääse ligi riistvarale, et treenida mudeleid nullist toorandmete põhjal, on nende kõige elujõulisem tee edasi „destilleerida“ intelligentsust, mille on juba täiustanud Ameerika ettevõtted, kellel on kiipe varuga.
Nende rünnakute tagajärjed ulatuvad kaugele väljapoole ettevõtete bilansse. Me oleme tunnistajaks „tehisintellekti külma sõja“ kinnistumisele, kus intellektuaalomand on peamine lahinguväli.
| Funktsioon | Algne treenimine | Destilleerimisrünnak |
|---|---|---|
| Maksumus | Miljardid (arvutusvõimsus + talendid) | Miljonid (API tasud + kraapimine) |
| Ajaraam | Aastatepikkune teadus- ja arendustegevus | Kuudepikkune andmete kogumine |
| Riistvaravajadus | Kümned tuhanded H100/B200 GPU-d | Standardne pilveinfrastruktuur |
| Andmeallikas | Massiivne veebikraapimine + inimtagasiside | Rivaali mudeli väljundid |
USA poliitikakujundajate jaoks on see riikliku julgeoleku küsimus. Kui Hiina ettevõtted suudavad arendusprotsessi edukalt „lühistada“, võib USA praegune eelis tehisintellekti turvalisuse ja võimekuse osas haihtuda. See on viinud üleskutseteni kehtestada tehisintellekti API pakkujatele rangemad „tunne oma klienti“ (KYC) nõuded, käsitledes juurdepääsu võimsale LLM-ile sama põhjalikult kui pangakontot.
Tehisintellekti laborid ei keskendu enam ainult oma mudelite targemaks muutmisele; nad keskenduvad nende varastamise raskendamisele. Praegu rakendatakse mitmeid kaitsemeetmeid:
Kuna tehisintellekti maastik muutub vaidlusalusemaks ja kaitsvamaks, peaksid arendajad ja ettevõtted valmistuma piiravamaks keskkonnaks.
Süüdistused DeepSeeki, Moonshot AI ja MiniMaxi vastu tähistavad fundamentaalset nihet tehisintellekti tööstuses. „Avatud teadustöö“ ajastu on kiiresti lõppemas, kuna ettevõtted mõistavad, et nende väljundid on nende kõige väärtuslikum vara. Kuigi USA juhib jätkuvalt toore innovatsiooni osas, jääb globaalsete konkurentide võime seda innovatsiooni destilleerimise kaudu peegeldada tugevaks ohuks. Tehisintellekti külm sõda ei ole enam teoreetiline tulevik — see on tänane reaalsus.



Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.
/ Tasuta konto loomin