Vakar vakarā es pavadīju trīs stundas, analizējot pretinieka uzvedņu (adversarial prompts) secību lokālā darbstacijā. Šī iestatne bija atvienota no interneta un tajā darbojās pašreizējās paaudzes atvērto svaru modelis. Eksperiments noritēja klusi. Nebija izejošo API izsaukumu centrālajam pakalpojumu sniedzējam, piemēram, OpenAI vai Google, kas varētu signalizēt par aizdomīgām darbībām. Nebija ātruma ierobežojumu, kas kavētu izpildi. Dažu minūšu laikā viens ienākošais teksta fails piespieda modeli ģenerēt virkni sekundāru instrukciju. Šīs instrukcijas tika izstrādātas, lai atrastu citus failus sistēmā un tajos ievietotu oriģinālās uzvednes kopiju. Tā ir Morris II pēcteča realitāte. Tas ir tārps, kas pilnībā dzīvo mākslīgā intelekta loģikā.
Pētnieki nesen demonstrēja, ka šie pašreplicējošie MI tārpi vairs neaprobežojas tikai ar teorētiskiem zinātniskajiem rakstiem vai mākoņvidēm. Tagad tie darbojas lokālos, atvērto svaru modeļos. Organizācijas bieži pārvieto savas MI darba slodzes uz lokālo aparatūru, lai nodrošinātu datu privātumu. Tās uzskata, ka datu glabāšana uz vietas ir pietiekama aizsardzība. Tas rada arhitektonisku paradoksu. Tā pati lokālā izolācija, kas aizsargā datus no publiskā mākoņa, arī slēpj ļaunprātīgas MI darbības no centralizētiem drošības monitoriem. Ja modelis ir neaizsargāts pret pretinieka pašreplicējošu uzvedni, uzbrukums notiek uzticamā perimetra iekšienē. Drošības komanda redz leģitīmu procesu, kas patērē GPU ciklus, kamēr tārps izplatās pa iekšējo datubāzi.
Tradicionālie tārpi izplatās, izmantojot atmiņas kļūdas vai tīkla protokolu nepilnības. Tie izmanto bufera pārpildi, lai izpildītu kodu, kuru sistēma nekad nebija paredzējusi palaist. MI tārps darbojas citādi. Tas izmanto semantisko pārpildi. Šajā scenārijā uzbrucējs sniedz uzvedni, kuru modelis interpretē kā augstākas pakāpes instrukciju kopumu. Modelis nenogurst un nesabrūk. Tas darbojas tieši tā, kā paredzēts, apstrādājot ievadi un ģenerējot atbildi. Problēma ir tāda, ka ievade satur slēptu komandu, kas spiež modeli iekļaut šo pašu komandu nākamajā izvadē. Tas rada atgriezeniskās saites cilpu.
Kad MI aģentam ir pilnvaras lasīt un rakstīt failus, cilpa kļūst par replikācijas ciklu. Modelis nolasa saindētu failu, izpilda slēpto instrukciju, lai to replicētu, un ieraksta to jaunā vietā. Aizkulisēs tārps izmanto lielo valodas modeļu (LLM) pamatfunkcionalitāti, lai izplatītos. Tas uztver modeli kā kompilatoru un izpildes dzinēju. Tā kā instrukcija ir uzrakstīta dabiskā valodā, tā apej tradicionālos uz parakstiem balstītos pretvīrusu rīkus. Skeneris meklē ļaunprātīgus bināros failus vai skriptus. Tas nemeklē teksta rindkopu, kas lūdz modelim būt noderīgam un iekļaut konkrētu teikumu nākamajā e-pasta uzmetumā.
Mākonī izvietotie MI pakalpojumu sniedzēji ievieš drošības slāņus, kas mēģina izfiltrēt ļaunprātīgas uzvednes. Šie filtri nav perfekti, taču tie nodrošina aizsardzības bāzi, kas tiek atjaunināta reāllaikā. Kad organizācija lejupielādē atvērto svaru modeli, piemēram, Llama vai Mistral, lai to darbinātu savos serveros, tā pati kļūst atbildīga par šiem drošības slāņiem. Daudzas izvietošanas noņem šos filtrus, lai uzlabotu veiktspēju vai izvairītos no sekundāra moderācijas modeļa aiztures. Tas padara sistēmu atvērtu tiešai uzvedņu injekcijai.
No riska viedokļa pāreja uz lokāliem modeļiem palielina iekšējā tīkla uzbrukuma virsmu. Uzbrucējam nav nepieciešams uzlauzt ugunsmūri, lai sasniegtu MI. Viņam tikai jānosūta dati, kurus MI ir ieprogrammēts apstrādāt. Tas var būt e-pasts, atbalsta pieteikums vai dokuments, kas augšupielādēts privātā zināšanu bāzē. Tiklīdz MI aģents nolasa saindētos datus, tārps sāk replicēties lokālajā vidē. Tas izmanto modeļa paša svarus, lai ģenerētu nākamo uzbrukuma iterāciju. Šo modeļu decentralizētais raksturs nozīmē, ka nav "izslēgšanas slēdža". Drošības pētnieks nevar piezvanīt vienam pakalpojumu sniedzējam, lai apturētu tārpa infrastruktūru. Infrastruktūra ir uzņēmuma paša serveru statne.
Informācijas drošības speciālisti bieži uzskata datus par vērtīgu resursu, kam nepieciešama aizsardzība. Pašreplicējošu MI tārpu kontekstā dati kļūst par toksisku aktīvu. Katra informācijas vienība, ko uzņem MI aģents, ir potenciāls virālas uzvednes nēsātājs. Ja aģentam ir atļauja apkopot e-pastus vai organizēt failus, tas darbojas kā digitāls Trojas zirgs. Tas ieved apdraudējumu visjutīgākajās tīkla zonās produktivitātes aizsegā.
Es nesen konsultēju firmu, kas izmantoja MI aģentu, lai pārraudzītu iekšējos Slack kanālus projektu atjauninājumiem. Viņi piešķīra aģentam lasīšanas piekļuvi visiem kanāliem un rakstīšanas piekļuvi centrālajai projektu vadības datubāzei. Šāda iestatne ir ideāls rotaļu laukums MI tārpam. Viena ziņa publiskā kanālā varētu saturēt slēptu uzvedni. Aģents nolasa ziņu, ģenerē kopsavilkumu un neapzināti iekļauj replikācijas uzvedni datubāzē. Katrs cits aģents vai lietotājs, kas mijiedarbojas ar šo datubāzi, kļūst par potenciālu vektoru tālākai izplatībai. Visas datu ekosistēmas integritāte tiek apdraudēta, jo sistēma uzticas modeļa izvadei bez pārbaudes.
Gadu desmitiem tīkla perimetrs bija galvenā aizsardzība. Tas darbojās kā pils aizsarggrāvis, kas atturēja uzbrucējus, vienlaikus ļaujot ienākt uzticamai trafika plūsmai. MI tārpi padara šo aizsarggrāvi novecējušu. Tie neiekļūst tīklā caur salauztiem vārtiem. Tie tiek ielūgti kā dati. Kad darbinieks saņem CV no darba meklētāja, fails iziet cauri ugunsmūrim, jo tas ir leģitīms dokuments. Ja šī CV apkopošanai tiek izmantots MI rīks, tārps izpildās GPU atmiņā.
Raugoties proaktīvi, nozarei ir jāvirzās uz nulles uzticamības (zero-trust) arhitektūru MI mijiedarbībai. Nulles uzticamība ir kā VIP kluba apsargs pie katrām iekšējām durvīm. Jūs nekad neuzticaties uzvednei un vienmēr pārbaudāt izvadi. Tas nozīmē, ka LLM izvade nekad nedrīkst tikt uzskatīta par uzticamiem datiem. Ja modelis ģenerē komandu rakstīt failā vai nosūtīt e-pastu, sekundārai sistēmai ir jāapstiprina šī darbība atbilstoši stingru politiku kopumam. Lokālajiem modeļiem ir nepieciešama lielāka uzraudzība, nevis mazāka. Tā kā tie ir neredzami ārējiem drošības pārdevējiem, iekšējai uzraudzībai jābūt granulārākai.
Lokālās MI infrastruktūras nodrošināšanai ir nepieciešama pāreja no tīkla trafika uzraudzības uz semantiskā nodoma uzraudzību. Organizācijas nevar paļauties uz atvērto svaru modeļu noklusējuma drošību. Šie modeļi ir rīki, un tāpat kā jebkuru rīku, tos var izmantot pret īpašnieku, ja tie netiek pienācīgi aizsargāti. Robusta aizsardzība ietver vairākus izolācijas un verifikācijas slāņus.
Apsveriet šos ieteikumus tūlītējai ieviešanai:
Kā pretpasākumu dažas komandas tagad izmanto "medus marķieru" (honeytoken) uzvednes. Tās ir specifiskas, slēptas virknes, kas ievietotas dokumentos un kuras MI nekad nevajadzētu apstrādāt. Ja drošības rīks konstatē šo virkņu ģenerēšanu LLM izvadē, tas izraisa tūlītēju trauksmi. Tā ir reaktīva pieeja, taču tā nodrošina tiesu ekspertīzes pēdas incidenta laikā. Mērķis ir atklāt replikāciju, pirms tārps piesātina iekšējo datu krātuvi.
Pašreplicējošu MI tārpu atklāšana lokālajos modeļos ir brīdinājums. Tas parāda, ka MI aģentu ērtības nāk kopā ar sistēmisku risku. Mēs būvējam sistēmas, kas ir izstrādātas, lai izpildītu instrukcijas, un esam pārsteigti, kad tās izpilda pretinieka sniegtās instrukcijas. Tā nav MI neveiksme. Tā ir MI apkārtējās arhitektūras neveiksme.
Drošības vadītājiem jāpārtrauc uztvert LLM kā "melnās kastes", kas vienkārši darbojas. Tās ir sarežģītas programmatūras sistēmas, kurām nepieciešama tāda pati stingra testēšana un robežu kontrole kā jebkurai citai uzņēmuma lietojumprogrammai. Ja neskaita ielāpu uzstādīšanu, visefektīvākā aizsardzība ir domāšanas veida maiņa. Neuzticieties uzvednei. Neuzticieties modelim. Neuzticieties izvadei. Šodien veiciet pilnu riska novērtējumu savām lokālajām MI izvietošanām un auditējiet katra jūsu iekšējiem datiem pievienotā aģenta atļaujas.
Avoti:
Atruna: Šis raksts ir paredzēts tikai informatīviem un izglītojošiem nolūkiem un neaizstāj profesionālu kiberdrošības auditu vai incidentu reaģēšanas pakalpojumu.



Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.
/ Izveidot bezmaksas kontu