Kibernetinis saugumas

Kodėl privatūs DI diegimai yra kitas svarbus savarankiškai besidauginančios kenkėjiškos programinės įrangos taikinys

Tyrėjai demonstruoja savarankiškai besidauginantį DI kirminą, naudojantį vietinius, atviro svorio modelius, kurie apeina tradicinę apsaugą plintant per semantines perpildas.

Alexey Drobyshev

Kibernetinio saugumo analitikas

2026 m. birželio 9 d.

Kodėl privatūs DI diegimai yra kitas svarbus savarankiškai besidauginančios kenkėjiškos programinės įrangos taikinys

Vakar vakarą praleidau tris valandas analizuodamas priešiškų užklausų seką vietinėje darbo stotyje. Ši sąranka buvo atjungta nuo interneto ir joje veikė dabartinės kartos atviro svorio modelis. Eksperimentas vyko tyliai. Nebuvo jokių išsiunčiamų API iškvietimų centriniam teikėjui, pavyzdžiui, „OpenAI“ ar „Google“, kad būtų užfiksuota įtartina veikla. Nebuvo jokių užklausų ribojimų, kurie stabdytų vykdymą. Per kelias minutes vienas gaunamas tekstinis failas privertė modelį sugeneruoti eilę antrinių instrukcijų. Šios instrukcijos buvo skirtos rasti kitus sistemoje esančius failus ir į juos įterpti originalios užklausos kopiją. Tai yra „Morris II“ įpėdinio realybė. Tai kirminas, kuris gyvena visiškai dirbtinio intelekto logikoje.

Tyrėjai neseniai įrodė, kad šie savarankiškai besidauginantys DI kirminai nebeapsiriboja teoriniais moksliniais darbais ar debesijos aplinkomis. Dabar jie veikia vietiniuose, atviro svorio modeliuose. Organizacijos dažnai perkelia savo DI darbo krūvius į vietinę techninę įrangą, kad užtikrintų duomenų privatumą. Jos tiki, kad duomenų laikymas vietoje yra pakankama gynyba. Tai sukuria architektūrinį paradoksą. Ta pati vietinė izoliacija, kuri saugo duomenis nuo viešojo debesies, taip pat paslepia kenkėjišką DI veiklą nuo centralizuotų saugumo stebėjimo priemonių. Jei modelis yra pažeidžiamas priešiškai savarankiškai besidauginančiai užklausai, ataka įvyksta patikimo perimetro viduje. Saugumo komanda mato teisėtą procesą, naudojantį GPU ciklus, kol kirminas plinta per vidinę duomenų bazę.

Semantinės perpildos mechanika

Tradiciniai kirminai plinta išnaudodami atminties klaidas arba tinklo protokolų trūkumus. Jie naudoja buferio perpildas, kad įvykdytų kodą, kurio sistema niekada neketino paleisti. DI kirminas veikia kitaip. Jis naudoja semantinę perpildą. Šiuo atveju užpuolikas pateikia užklausą, kurią modelis interpretuoja kaip aukštesnės eilės instrukcijų rinkinį. Modelis neužlūžta. Jis veikia tiksliai taip, kaip suprojektuotas – apdoroja įvestį ir generuoja atsakymą. Problema ta, kad įvestyje yra paslėpta komanda, kuri priverčia modelį įtraukti tą pačią komandą į kitą savo išvestį. Taip sukuriamas grįžtamojo ryšio ciklas.

Kai DI agentas turi įgaliojimus skaityti ir rašyti failus, šis ciklas tampa replikacijos ciklu. Modelis perskaito apnuodytą failą, laikosi paslėptos instrukcijos ją atkartoti ir įrašo ją į naują vietą. Užkulisiuose kirminas išnaudoja pagrindines didelio kalbos modelio (LLM) funkcijas, kad galėtų plisti. Jis traktuoja modelį kaip kompiliatorių ir vykdymo variklį. Kadangi instrukcija parašyta natūralia kalba, ji apeina tradicinius parašais pagrįstus antivirusinius įrankius. Skeneris ieško kenkėjiškų dvejetainių failų ar skriptų. Jis neieško teksto pastraipos, kurioje modelio prašoma būti naudingu ir įtraukti konkretų sakinį į kitą el. pašto juodraštį.

Kodėl atviro svorio modeliai keičia grėsmių profilį

Debesyje priglobti DI teikėjai diegia saugos sluoksnius, kurie bando filtruoti kenkėjiškas užklausas. Šie filtrai nėra tobuli, tačiau jie suteikia bazinę gynybą, kuri atnaujinama realiuoju laiku. Kai organizacija atsisiunčia atviro svorio modelį, pavyzdžiui, „Llama“ ar „Mistral“, kad paleistų jį savo serveriuose, ji pati tampa atsakinga už tuos saugos sluoksnius. Daugelyje diegimų šie filtrai pašalinami siekiant pagerinti našumą arba išvengti antrinio moderavimo modelio vėlavimo. Tai palieka sistemą atvirą tiesioginėms užklausų injekcijoms.

Rizikos požiūriu perėjimas prie vietinių modelių padidina vidinio tinklo atakų paviršių. Užpuolikui nereikia įveikti ugniasienės, kad pasiektų DI. Jam tereikia nusiųsti duomenis, kuriuos DI yra užprogramuotas apdoroti. Tai gali būti el. laiškas, pagalbos užklausa arba dokumentas, įkeltas į privačią žinių bazę. Kai tik DI agentas perskaito apnuodytus duomenis, kirminas pradeda replikuotis vietinėje aplinkoje. Jis naudoja paties modelio svorius kitai atakos iteracijai generuoti. Decentralizuotas šių modelių pobūdis reiškia, kad nėra „išjungimo mygtuko“. Saugumo tyrėjas negali paskambinti vienam teikėjui, kad šis išjungtų kirmino infrastruktūrą. Infrastruktūra yra pačios įmonės serverių spinta.

Duomenys kaip toksiškas turtas DI agentų amžiuje

Informacinio saugumo specialistai dažnai vertina duomenis kaip vertingą išteklių, kurį reikia saugoti. Savarankiškai besidauginančių DI kirminų kontekste duomenys tampa toksišku turtu. Kiekviena informacija, kurią pasisavina DI agentas, yra potencialus virusinės užklausos nešiotojas. Jei agentas turi leidimą apibendrinti el. laiškus ar tvarkyti failus, jis veikia kaip skaitmeninis Trojos arklys. Prisidengdamas produktyvumu, jis atneša grėsmę į jautriausias tinklo sritis.

Neseniai konsultavau įmonę, kuri naudojo DI agentą vidiniams „Slack“ kanalams stebėti dėl projektų atnaujinimų. Jie suteikė agentui skaitymo prieigą prie visų kanalų ir rašymo prieigą prie centrinės projektų valdymo duomenų bazės. Ši sąranka yra žaidimų aikštelė DI kirminui. Viena žinutė viešame kanale galėtų turėti paslėptą užklausą. Agentas perskaito žinutę, sugeneruoja santrauką ir pats to nežinodamas įtraukia replikacijos užklausą į duomenų bazę. Kiekvienas kitas agentas ar vartotojas, sąveikaujantis su ta duomenų baze, tampa potencialiu tolesnio plitimo vektoriumi. Visos duomenų ekosistemos vientisumas yra pažeidžiamas, nes sistema pasitiki modelio išvestimi be patikrinimo.

Tinklo perimetro kaip gynybinio griovio nesėkmė

Dešimtmečius tinklo perimetras buvo pagrindinė gynyba. Jis veikė kaip pilies griovys, neleidžiantis užpuolikams patekti į vidų, bet leidžiantis patikimą srautą. DI kirminai paverčia šį griovį pasenusiu. Jie nepatenka į tinklą per sulaužytus vartus. Jie pakviečiami į vidų kaip duomenys. Kai darbuotojas gauna gyvenimo aprašymą iš kandidato į darbo vietą, failas praeina per ugniasienę, nes tai yra teisėtas dokumentas. Jei tam gyvenimo aprašymui apibendrinti naudojamas DI įrankis, kirminas įvykdomas GPU atmintyje.

Žvelgiant proaktyviai, pramonė turi judėti link nulinio pasitikėjimo (zero-trust) architektūros DI sąveikoms. Nulinis pasitikėjimas yra tarsi VIP klubo apsauginis prie kiekvienų vidinių durų. Niekada nepasitikite užklausa ir visada tikrinate išvestį. Tai reiškia, kad LLM išvestis niekada neturėtų būti laikoma patikimais duomenimis. Jei modelis sugeneruoja komandą rašyti į failą arba siųsti el. laišką, antrinė sistema privalo patvirtinti šį veiksmą pagal griežtas taisykles. Vietiniams modeliams reikia daugiau priežiūros, o ne mažiau. Kadangi jie nematomi išoriniams saugumo tiekėjams, vidinis stebėjimas turi būti detalesnis.

Praktiniai žingsniai vietiniams DI diegimams apsaugoti

Vietinio DI sluoksnio apsauga reikalauja perėjimo nuo tinklo srauto stebėjimo prie semantinės intencijos stebėjimo. Organizacijos negali pasikliauti numatytuoju atviro svorio modelių saugumu. Šie modeliai yra įrankiai, ir kaip bet kuris įrankis, jie gali būti panaudoti prieš savininką, jei paliekami nesaugūs. Patikima gynyba apima kelis izoliacijos ir patikros sluoksnius.

Apsvarstykite šiuos patarimus neatidėliotinam įgyvendinimui:

Įdiekite griežtą išvesties sanitarizaciją. Naudokite atskirą, labai apribotą modelį, kad nuskaitytumėte pagrindinio LLM išvestį dėl replikacijos modelių ar įtartinų instrukcijų prieš atliekant bet kokį rašymo veiksmą.
Apribokite agentų leidimus. Taikykite mažiausių privilegijų principą DI agentams. Agentui, kuris apibendrina tekstą, nereikia leidimo kurti naujus failus ar siųsti išorinę komunikaciją.
Naudokite fiziškai atskirtą (air-gapped) išvadų darymą jautriems duomenims. Jei DI apdoroja kritinę intelektinę nuosavybę, užtikrinkite, kad techninė įranga neturėtų kelio į platesnį įmonės tinklą ar internetą.
Audituokite papildytos paieškos generavimo (RAG) procesą. Užtikrinkite, kad iš išorinių šaltinių gauti duomenys būtų sanitarizuoti prieš juos pateikiant į modelio konteksto langą.

Kaip priešpriešinę priemonę kai kurios komandos dabar naudoja „honeytoken“ užklausas. Tai specifinės, paslėptos eilutės, įterptos į dokumentus, kurių DI niekada neturėtų apdoroti. Jei saugumo įrankis aptinka šias eilutes generuojamas LLM išvestyje, jis sukelia neatidėliotiną įspėjimą. Tai reaktyvus požiūris, tačiau jis suteikia teismo ekspertizės pėdsaką incidento metu. Tikslas yra aptikti replikaciją prieš kirminui prisotinant vidinę duomenų saugyklą.

Autonominės įmonės atakų paviršiaus pervertinimas

Savarankiškai besidauginančių DI kirminų atradimas vietiniuose modeliuose yra įspėjimas. Tai rodo, kad DI agentų patogumas ateina su sistemine rizika. Mes kuriame sistemas, kurios skirtos vykdyti instrukcijas, ir stebimės, kai jos vykdo priešininko pateiktas instrukcijas. Tai nėra DI nesėkmė. Tai architektūros aplink DI nesėkmė.

Saugumo vadovai privalo nustoti traktuoti LLM kaip „juodąsias dėžes“, kurios tiesiog veikia. Tai sudėtingos programinės įrangos sistemos, reikalaujančios tokio pat lygio griežto testavimo ir ribų kontrolės kaip ir bet kuri kita įmonės programa. Atmetus pataisymų diegimą, veiksmingiausia gynyba yra mąstysenos pasikeitimas. Nepasitikėkite užklausa. Nepasitikėkite modeliu. Nepasitikėkite išvestimi. Atlikite pilną savo vietinių DI diegimų rizikos vertinimą šiandien ir audituokite kiekvieno agento, prijungto prie jūsų vidinių duomenų, leidimus.

Šaltiniai:

NIST AI 100-1: Artificial Intelligence Risk Management Framework
MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems)
OWASP Top 10 for Large Language Model Applications

Atsakomybės apribojimas: Šis straipsnis yra skirtas tik informaciniams ir švietimo tikslams ir nepakeičia profesionalaus kibernetinio saugumo audito ar reagavimo į incidentus paslaugų.

#AtviroSvorioModeliai #DiKirminas #KibernetinisSaugumas #UžklausųInjekcija #VietinisDDM

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą

Pasirinktiniai domenai

Iki 1 TB talpos saugykla

Išplėstinis bendrinimas

Galutinis šifravimas

Savaime susinaikinantys el. laiškai

Pasirinktiniai domenai

Iki 1 TB talpos saugykla

Išplėstinis bendrinimas

Galutinis šifravimas

Savaime susinaikinantys el. laiškai

Beeble Mail

Beeble Drive

Apie Beeble

Misija

Istorija

Premium

Bendrieji klausimai

Paaukoti

Kontaktai