Nozaru jaunumi

Lielā modeļu laupīšana: kā "destilācijas uzbrukumi" kurina mākslīgā intelekta auksto karu

Anthropic un OpenAI apsūdz Ķīnas uzņēmumus "destilācijas uzbrukumu" izmantošanā, lai zagtu MI pētījumus. Izpētiet ietekmi uz ASV un Ķīnas MI sacensību.
Lielā modeļu laupīšana: kā "destilācijas uzbrukumi" kurina mākslīgā intelekta auksto karu

Sacensība par mākslīgā intelekta pārākumu ir ieguvusi jaunu, strīdīgu nodaļu. Kamēr pasaule vēro arvien jaudīgāku lielo valodas modeļu (LLM) izlaišanu, aizkulisēs notiek ēnu karš par datiem, kas izmantoti to apmācībai. Vairākos satraucošos ziņojumos vadošie Amerikas MI uzņēmumi — tostarp Anthropic, OpenAI un Google — ir apsūdzējuši vairākus ievērojamus Ķīnas MI jaunuzņēmumus par gadiem ilgu pētījumu un miljardiem dolāru lielu investīciju apiešanu, izmantojot tehniku, kas pazīstama kā "destilācijas uzbrukums".

Jaunākā strīda centrā ir Anthropic, Claude modeļu sērijas radītājs. Uzņēmums nesen atklāja, ka ir fiksējis vērienīgus, koordinētus centienus iegūt tā intelektuālo īpašumu. Saskaņā ar Anthropic sniegto informāciju, uzņēmumi, tostarp DeepSeek, Moonshot AI un MiniMax, iespējams, izmantojuši vairāk nekā 24 000 viltus kontu, lai ģenerētu vairāk nekā 16 miljonus sarunu ar Claude. Mērķis? Izmantot Claude sarežģīto spriestspēju un loģiku, lai apmācītu savus konkurējošos modeļus par niecīgu daļu no izmaksām.

Destilācijas uzbrukuma izpratne

Lai saprastu, kāpēc šīs apsūdzības ir tik nozīmīgas, ir jāsaprot modeļu destilācijas jēdziens. Leģitīmā pētniecības kontekstā destilācija ir izplatīta tehnika, kurā mazāks, efektīvāks "skolēna" modelis tiek apmācīts atdarināt lielāka, sarežģītāka "skolotāja" modeļa uzvedību. Tas ļauj izstrādātājiem izveidot ātru, vieglu MI, kas var darboties viedtālruņos vai lokālajā aparatūrā, saglabājot lielu daļu no masīva datu centra līmeņa modeļa intelekta.

Tomēr destilācijas uzbrukums notiek tad, kad konkurents izmanto sāncenša modeļa API (lietojumprogrammas saskarni), lai sistemātiski iegūtu tā zināšanas bez atļaujas. Iedomājieties to kā studentu, kurš tā vietā, lai studētu oriģinālās mācību grāmatas un veiktu laboratorijas darbus, vienkārši ieraksta katru pasaules līmeņa profesora teikto vārdu un izmanto šos ierakstus, lai izveidotu konkurējošu kursu. Students ietaupa gadiem ilgu darbu un miljonus mācību maksā, savukārt profesora oriģināldarbs tiek devalvēts.

Apsūdzību mērogs

Anthropic ziņotās aktivitātes mērogs liecina par augsti industrializētu operāciju. Izveidojot 24 000 atsevišķu kontu, uzbrucēji, visticamāk, mēģināja apiet "ātruma ierobežojumus" (rate limits) — drošības bremzes, ko MI uzņēmumi ievieš, lai neļautu vienam lietotājam monopolizēt resursus vai masveidā vākt datus.

Sadalot 16 miljonus vaicājumu starp šiem kontiem, Ķīnas uzņēmumi, iespējams, apkopoja milzīgu "sintētisko datu" kopu ar augstu kvalitāti. Šie dati ir īpaši vērtīgi, jo tie satur "domu ķēdes" (chain-of-thought) spriestspēju, ar ko slaveni tādi modeļi kā Claude 3.5 un Claude 4. Tādam uzņēmumam kā DeepSeek vai Moonshot AI šie iegūtie dati kalpo kā saīsne, ļaujot tiem pārvarēt plaisu starp pašreizējām iespējām un modernākajiem sasniegumiem bez astronomiskām izmaksām par oriģināliem atklājumiem.

Eskalācijas tendence

Anthropic nav vienīgais, kam ir pretenzijas. Šī mēneša sākumā OpenAI un Google izplatīja līdzīgus brīdinājumus, norādot, ka to patentētie modeļi tiek izmantoti vaicājumu modeļos, kas liecina par automatizētu datu vākšanu, ko veic ar Ķīnas tehnoloģiju sektoru saistītas vienības.

Šī tendence izceļ pieaugošo izmisumu globālajā MI sacensībā. Tā kā ASV valdība pastiprina eksporta kontroli augstas klases NVIDIA mikroshēmām — aparatūrai, kas nepieciešama MI apmācībai —, Ķīnas uzņēmumi saskaras ar "skaitļošanas jaudas krīzi". Ja tie nevar piekļūt aparatūrai, lai apmācītu modeļus no nulles, izmantojot neapstrādātus datus, to dzīvotspējīgākais ceļš uz priekšu ir "destilēt" intelektu, ko jau pilnveidojuši Amerikas uzņēmumi, kuriem mikroshēmu netrūkst.

Ekonomiskā un ģeopolitiskā ietekme

Šo uzbrukumu sekas sniedzas tālu aiz uzņēmumu bilancēm. Mēs esam liecinieki "MI aukstā kara" nostiprināšanai, kur intelektuālais īpašums ir galvenais kaujas lauks.

Funkcija Oriģinālā apmācība Destilācijas uzbrukums
Izmaksas Miljardi (skaitļošana + talanti) Miljoni (API maksas + datu vākšana)
Laika posms Gadiem ilga pētniecība un izstrāde Mēnešiem ilga datu vākšana
Aparatūras vajadzības Desmitiem tūkstošu H100/B200 GPU Standarta mākoņinfrastruktūra
Datu avots Masīva tīmekļa pārmeklēšana + cilvēku atsauksmes Konkurējoša modeļa izvade

ASV politikas veidotājiem tas ir nacionālās drošības jautājums. Ja Ķīnas uzņēmumi var veiksmīgi "saīsināt" attīstības procesu, ASV pašreizējais pārsvars MI drošības un spēju jomā var izgaist. Tas ir izraisījis aicinājumus ieviest stingrākas "Pazīsti savu klientu" (KYC) prasības MI API pakalpojumu sniedzējiem, faktiski pret piekļuvi jaudīgam LLM izturoties ar tādu pašu rūpību kā pret bankas kontu.

Kā nozare cīnās pretī

MI laboratorijas vairs nekoncentrējas tikai uz to, lai padarītu savus modeļus gudrākus; tās koncentrējas uz to, lai padarītu tos grūtāk nozogamus. Pašlaik tiek ieviestas vairākas aizsardzības stratēģijas:

  • Uzvedības pirkstu nospiedumu noņemšana: Uzņēmumi izmanto MI, lai uzraudzītu API trafiku, meklējot "necilvēcīgus" modeļus. Ja konts pēc kārtas uzdod tūkstošiem sarežģītu loģikas mīklu, tas tiek atzīmēts kā potenciāls bots.
  • Ūdenszīmju izmantošana: Daži pētnieki eksperimentē ar modeļu izvades "mīksto ūdenszīmju" izmantošanu. Tas ietver subtilu vārdu izvēles ietekmēšanu tādā veidā, kas cilvēkiem nav redzams, bet ko vēlāk var noteikt algoritms, pierādot, ka konkrētu datu kopu ir ģenerējis konkrēts modelis.
  • Agresīva ātruma ierobežošana: Vaicājumu skaita samazināšana jaunajiem kontiem, līdz tie ir izveidojuši leģitīmas lietošanas vēsturi.

Praktiski ieteikumi tehnoloģiju nozarei

Tā kā MI vide kļūst arvien tiesiskāka un aizsargājošāka, izstrādātājiem un uzņēmumiem jāsagatavojas ierobežojošākai videi.

  1. Gaidiet stingrāku piekļuvi API: Ja veidojat risinājumus uz Claude vai GPT bāzes, rēķinieties ar stingrāku identitātes pārbaudi un stingrākiem lietošanas ierobežojumiem jauniem kontiem.
  2. Auditējiet savus datu avotus: Ja izmantojat atvērtā pirmkoda modeļus, kas pretendē uz "GPT-4 līmeņa veiktspēju", pārbaudiet to apmācības metodoloģiju. Izmantojot modeļus, kas apmācīti uz zagtiem destilācijas datiem, var rasties juridiskas komplikācijas vai "modeļa sabrukums", ja dati ir bijuši slikti filtrēti.
  3. Pārraugiet savu intelektuālo īpašumu: Ja jūsu uzņēmums izstrādā patentētus algoritmus, pārliecinieties, ka jūsu API galapunktiem ir stabila uzraudzība, lai novērstu līdzīgus datu vākšanas mēģinājumus.

Ceļš uz priekšu

Apsūdzības pret DeepSeek, Moonshot AI un MiniMax liecina par fundamentālām pārmaiņām MI nozarē. "Atvērtās pētniecības" ēra strauji beidzas, jo uzņēmumi saprot, ka to izstrādes rezultāti ir to vērtīgākie aktīvi. Kamēr ASV turpina vadīt inovāciju jomā, globālo konkurentu spēja atspoguļot šīs inovācijas ar destilācijas palīdzību joprojām ir nopietns drauds. MI aukstais karš vairs nav teorētiska nākotne — tā ir pašreizējā realitāte.

Avoti

  • Anthropic Official Blog: Security and Model Integrity Reports
  • The New York Times: The Global Struggle for AI Supremacy
  • MIT Technology Review: What is Model Distillation?
  • U.S. Department of Commerce: Export Controls and Emerging Technologies
  • Reuters: Chinese AI Startups and the Quest for Compute
bg
bg
bg

Uz tikšanos otrā pusē.

Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.

/ Izveidot bezmaksas kontu