साइबर सुरक्षा

निजी एआई परिनियोजन स्व-प्रतिकृति मैलवेयर के लिए अगला प्रमुख लक्ष्य क्यों हैं

शोधकर्ताओं ने स्थानीय, ओपन-वेट मॉडल का उपयोग करके एक स्व-प्रतिकृति एआई वर्म का प्रदर्शन किया है, जो सिमेंटिक ओवरफ्लो के माध्यम से फैलने के लिए पारंपरिक सुरक्षा को दरकिनार करता है।
निजी एआई परिनियोजन स्व-प्रतिकृति मैलवेयर के लिए अगला प्रमुख लक्ष्य क्यों हैं

मैंने कल शाम एक स्थानीय वर्कस्टेशन पर एडवरसैरियल प्रॉम्प्ट्स (adversarial prompts) के एक क्रम का विश्लेषण करने में तीन घंटे बिताए। यह सेटअप इंटरनेट से डिस्कनेक्ट था और वर्तमान पीढ़ी के ओपन-वेट मॉडल पर चल रहा था। प्रयोग शांत था। संदिग्ध गतिविधि को फ्लैग करने के लिए OpenAI या Google जैसे केंद्रीय प्रदाता को कोई आउटबाउंड API कॉल नहीं की गई थी। निष्पादन को धीमा करने के लिए कोई दर सीमा (rate limits) नहीं थी। कुछ ही मिनटों में, एक एकल इनबाउंड टेक्स्ट फ़ाइल ने मॉडल को माध्यमिक निर्देशों की एक श्रृंखला उत्पन्न करने के लिए मजबूर किया। ये निर्देश सिस्टम पर अन्य फ़ाइलों को खोजने और उनमें मूल प्रॉम्प्ट की एक प्रति डालने के लिए डिज़ाइन किए गए थे। यह मौरिस II (Morris II) उत्तराधिकारी की वास्तविकता है। यह एक वर्म है जो पूरी तरह से आर्टिफिशियल इंटेलिजेंस के तर्क के भीतर रहता है।

शोधकर्ताओं ने हाल ही में प्रदर्शित किया है कि ये स्व-प्रतिकृति (self-replicating) एआई वर्म अब सैद्धांतिक श्वेत पत्रों या क्लाउड-आधारित वातावरण तक सीमित नहीं हैं। वे अब स्थानीय, ओपन-वेट मॉडल पर काम करते हैं। संगठन डेटा गोपनीयता सुनिश्चित करने के लिए अक्सर अपने एआई वर्कलोड को स्थानीय हार्डवेयर पर ले जाते हैं। उनका मानना है कि डेटा को ऑन-प्रिमाइसेस रखना एक पर्याप्त बचाव है। यह एक वास्तुशिल्प विरोधाभास (architectural paradox) पैदा करता है। वही स्थानीय अलगाव जो सार्वजनिक क्लाउड से डेटा की सुरक्षा करता है, केंद्रीकृत सुरक्षा मॉनिटर से दुर्भावनापूर्ण एआई गतिविधि को भी छुपाता है। यदि कोई मॉडल एडवरसैरियल स्व-प्रतिकृति प्रॉम्प्ट के प्रति संवेदनशील है, तो हमला विश्वसनीय परिधि के अंदर होता है। सुरक्षा टीम एक वैध प्रक्रिया को GPU साइकिल की खपत करते हुए देखती है जबकि वर्म आंतरिक डेटाबेस के माध्यम से फैलता है।

सिमेंटिक ओवरफ्लो की कार्यप्रणाली

पारंपरिक वर्म मेमोरी त्रुटियों या नेटवर्क प्रोटोकॉल में खामियों का फायदा उठाकर फैलते हैं। वे कोड निष्पादित करने के लिए बफर ओवरफ्लो का उपयोग करते हैं जिसे सिस्टम ने कभी चलाने का इरादा नहीं किया था। एक एआई वर्म अलग तरह से काम करता है। यह सिमेंटिक ओवरफ्लो (semantic overflow) का उपयोग करता है। इस परिदृश्य में, हमलावर एक प्रॉम्प्ट प्रदान करता है जिसे मॉडल उच्च-क्रम के निर्देशों के एक सेट के रूप में व्याख्या करता है। मॉडल क्रैश नहीं होता है। यह इनपुट को प्रोसेस करके और प्रतिक्रिया उत्पन्न करके बिल्कुल वैसा ही प्रदर्शन करता है जैसा कि डिज़ाइन किया गया है। समस्या यह है कि इनपुट में एक छिपा हुआ कमांड होता है जो मॉडल को अपने अगले आउटपुट में उसी कमांड को शामिल करने के लिए मजबूर करता है। यह एक फीडबैक लूप बनाता है।

जब एक एआई एजेंट के पास फ़ाइलों को पढ़ने और लिखने का अधिकार होता है, तो लूप एक प्रतिकृति चक्र (replication cycle) बन जाता है। मॉडल एक दूषित फ़ाइल को पढ़ता है, उस निर्देश को दोहराने के लिए छिपे हुए निर्देश का पालन करता है, और इसे एक नए स्थान पर लिखता है। पर्दे के पीछे, वर्म प्रसार करने के लिए लार्ज लैंग्वेज मॉडल (LLM) की मुख्य कार्यक्षमता का लाभ उठाता है। यह मॉडल को एक कंपाइलर और एक निष्पादन इंजन के रूप में मानता है। चूंकि निर्देश प्राकृतिक भाषा में लिखा गया है, इसलिए यह पारंपरिक सिग्नेचर-आधारित एंटीवायरस टूल को दरकिनार कर देता है। एक स्कैनर दुर्भावनापूर्ण बाइनरी या स्क्रिप्ट की तलाश करता है। वह टेक्स्ट के उस पैराग्राफ को नहीं देखता जो मॉडल को मददगार होने और अपने अगले ईमेल ड्राफ्ट में एक विशिष्ट वाक्य शामिल करने के लिए कहता है।

ओपन वेट मॉडल खतरे के प्रोफाइल को क्यों बदलते हैं

क्लाउड-होस्टेड एआई प्रदाता सुरक्षा परतें लागू करते हैं जो दुर्भावनापूर्ण प्रॉम्प्ट को फ़िल्टर करने का प्रयास करती हैं। ये फ़िल्टर सही नहीं हैं, लेकिन वे बचाव का एक आधार प्रदान करते हैं जो वास्तविक समय में अपडेट होता है। जब कोई संगठन अपने स्वयं के सर्वर पर चलाने के लिए Llama या Mistral जैसे ओपन-वेट मॉडल डाउनलोड करता है, तो वे उन सुरक्षा परतों के लिए स्वयं जिम्मेदार हो जाते हैं। कई परिनियोजन प्रदर्शन में सुधार करने के लिए या माध्यमिक मॉडरेशन मॉडल की विलंबता (latency) से बचने के लिए इन फ़िल्टरों को हटा देते हैं। यह सिस्टम को सीधे प्रॉम्प्ट इंजेक्शन (prompt injection) के लिए खुला छोड़ देता है।

जोखिम के दृष्टिकोण से, स्थानीय मॉडल की ओर कदम आंतरिक नेटवर्क के हमले की सतह (attack surface) को बढ़ाता है। एक हमलावर को एआई तक पहुंचने के लिए फ़ायरवॉल से समझौता करने की आवश्यकता नहीं है। उन्हें केवल डेटा का एक टुकड़ा भेजने की आवश्यकता है जिसे प्रोसेस करने के लिए एआई को प्रोग्राम किया गया है। यह एक ईमेल, एक सपोर्ट टिकट, या एक निजी नॉलेज बेस में अपलोड किया गया दस्तावेज़ हो सकता है। एक बार जब एआई एजेंट दूषित डेटा पढ़ लेता है, तो वर्म स्थानीय वातावरण के भीतर प्रतिकृति बनाना शुरू कर देता है। यह हमले की अगली पुनरावृत्ति उत्पन्न करने के लिए मॉडल के अपने वेट (weights) का उपयोग करता है। इन मॉडलों की विकेंद्रीकृत प्रकृति का मतलब है कि कोई किल स्विच नहीं है। एक सुरक्षा शोधकर्ता वर्म के बुनियादी ढांचे को गिराने के लिए किसी एक प्रदाता को कॉल नहीं कर सकता है। बुनियादी ढांचा कंपनी का अपना सर्वर रैक है।

एआई एजेंटों के युग में डेटा एक जहरीली संपत्ति के रूप में

सूचना सुरक्षा पेशेवर अक्सर डेटा को एक मूल्यवान संसाधन के रूप में देखते हैं जिसे सुरक्षा की आवश्यकता होती है। स्व-प्रतिकृति एआई वर्म के संदर्भ में, डेटा एक जहरीली संपत्ति (toxic asset) बन जाता है। एआई एजेंट द्वारा ग्रहण की गई जानकारी का हर टुकड़ा एक वायरल प्रॉम्प्ट के लिए संभावित वाहक है। यदि एजेंट के पास ईमेल को सारांशित करने या फ़ाइलों को व्यवस्थित करने की अनुमति है, तो यह एक डिजिटल ट्रोजन हॉर्स के रूप में कार्य करता है। यह उत्पादकता की आड़ में नेटवर्क के सबसे संवेदनशील क्षेत्रों में खतरा लाता है।

मैंने हाल ही में एक फर्म के लिए परामर्श दिया जो प्रोजेक्ट अपडेट के लिए आंतरिक Slack चैनलों की निगरानी के लिए एक एआई एजेंट का उपयोग करती थी। उन्होंने एजेंट को सभी चैनलों तक पढ़ने की पहुंच और एक केंद्रीय परियोजना प्रबंधन डेटाबेस तक लिखने की पहुंच प्रदान की। यह सेटअप एआई वर्म के लिए एक खेल का मैदान है। सार्वजनिक चैनल में एक एकल संदेश में एक छिपा हुआ प्रॉम्प्ट हो सकता है। एजेंट संदेश पढ़ता है, सारांश उत्पन्न करता है, और अनजाने में डेटाबेस में प्रतिकृति प्रॉम्प्ट शामिल कर लेता है। हर दूसरा एजेंट या उपयोगकर्ता जो उस डेटाबेस के साथ इंटरैक्ट करता है, वह आगे प्रसार के लिए एक संभावित वेक्टर बन जाता है। पूरे डेटा पारिस्थितिकी तंत्र की अखंडता से समझौता किया जाता है क्योंकि सिस्टम सत्यापन के बिना मॉडल के आउटपुट पर भरोसा करता है।

एक खाई के रूप में नेटवर्क परिधि की विफलता

दशकों तक, नेटवर्क परिधि प्राथमिक बचाव थी। इसने एक महल की खाई के रूप में कार्य किया जिसने हमलावरों को बाहर रखा जबकि विश्वसनीय ट्रैफ़िक को अंदर आने दिया। एआई वर्म इस खाई को अप्रचलित बना देते हैं। वे टूटे हुए गेट के माध्यम से नेटवर्क में प्रवेश नहीं करते हैं। उन्हें डेटा के रूप में आमंत्रित किया जाता है। जब कोई कर्मचारी नौकरी के आवेदक से बायोडाटा प्राप्त करता है, तो फ़ाइल फ़ायरवॉल से गुजरती है क्योंकि यह एक वैध दस्तावेज़ है। यदि उस बायोडाटा को सारांशित करने के लिए एआई टूल का उपयोग किया जाता है, तो वर्म GPU की मेमोरी के भीतर निष्पादित होता है।

सक्रिय रूप से कहें तो, उद्योग को एआई इंटरैक्शन के लिए ज़ीरो-ट्रस्ट आर्किटेक्चर (zero-trust architecture) की ओर बढ़ना चाहिए। ज़ीरो ट्रस्ट हर आंतरिक दरवाजे पर एक वीआईपी क्लब बाउंसर की तरह है। आप कभी भी प्रॉम्प्ट पर भरोसा नहीं करते हैं, और आप हमेशा आउटपुट को सत्यापित करते हैं। इसका मतलब है कि LLM के आउटपुट को कभी भी विश्वसनीय डेटा के रूप में नहीं माना जाना चाहिए। यदि कोई मॉडल फ़ाइल में लिखने या ईमेल भेजने के लिए कमांड उत्पन्न करता है, तो एक माध्यमिक प्रणाली को सख्त नीतियों के सेट के खिलाफ उस कार्रवाई को मान्य करना चाहिए। स्थानीय मॉडलों को अधिक जांच की आवश्यकता होती है, कम नहीं। क्योंकि वे बाहरी सुरक्षा विक्रेताओं के लिए अदृश्य हैं, इसलिए आंतरिक निगरानी अधिक विस्तृत होनी चाहिए।

स्थानीय एआई परिनियोजन को सुरक्षित करने के लिए व्यावहारिक कदम

एक स्थानीय एआई स्टैक को सुरक्षित करने के लिए नेटवर्क ट्रैफ़िक की निगरानी से सिमेंटिक इरादे (semantic intent) की निगरानी की ओर बदलाव की आवश्यकता होती है। संगठन ओपन-वेट मॉडल की डिफ़ॉल्ट सुरक्षा पर भरोसा नहीं कर सकते। ये मॉडल उपकरण हैं, और किसी भी उपकरण की तरह, असुरक्षित छोड़े जाने पर इनका उपयोग मालिक के खिलाफ किया जा सकता है। एक मजबूत बचाव में अलगाव और सत्यापन की कई परतें शामिल होती हैं।

तत्काल कार्यान्वयन के लिए निम्नलिखित उपायों पर विचार करें:

  • सख्त आउटपुट सैनिटाइजेशन लागू करें। किसी भी लिखने की कार्रवाई से पहले प्रतिकृति पैटर्न या संदिग्ध निर्देशों के लिए अपने प्राथमिक LLM के आउटपुट को स्कैन करने के लिए एक अलग, अत्यधिक विवश मॉडल का उपयोग करें।
  • एजेंट की अनुमतियों को सीमित करें। एआई एजेंटों पर न्यूनतम विशेषाधिकार (least privilege) का सिद्धांत लागू करें। एक एजेंट जो टेक्स्ट को सारांशित करता है उसे नई फ़ाइलें बनाने या बाहरी संचार भेजने की अनुमति की आवश्यकता नहीं होती है।
  • संवेदनशील डेटा के लिए एयर-गैप्ड इन्फरेंस का उपयोग करें। यदि एआई मिशन-महत्वपूर्ण बौद्धिक संपदा को प्रोसेस कर रहा है, तो सुनिश्चित करें कि हार्डवेयर का व्यापक कॉर्पोरेट नेटवर्क या इंटरनेट तक कोई रास्ता नहीं है।
  • रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) पाइपलाइन का ऑडिट करें। सुनिश्चित करें कि बाहरी स्रोतों से प्राप्त डेटा को मॉडल के संदर्भ विंडो में फीड करने से पहले सैनिटाइज किया गया है।

एक जवाबी उपाय के रूप में, कुछ टीमें अब हनीटोकन प्रॉम्प्ट्स (honeytoken prompts) का उपयोग कर रही हैं। ये दस्तावेजों में रखे गए विशिष्ट, छिपे हुए स्ट्रिंग्स हैं जिन्हें कभी भी एआई द्वारा प्रोसेस नहीं किया जाना चाहिए। यदि कोई सुरक्षा टूल LLM आउटपुट में इन स्ट्रिंग्स को उत्पन्न होते हुए पता लगाता है, तो यह तत्काल अलर्ट ट्रिगर करता है। यह एक प्रतिक्रियाशील दृष्टिकोण है, लेकिन यह एक घटना के दौरान फॉरेंसिक ट्रेल प्रदान करता है। लक्ष्य वर्म द्वारा आंतरिक डेटा स्टोर को संतृप्त करने से पहले प्रतिकृति का पता लगाना है।

स्वायत्त उद्यम के हमले की सतह का पुनर्मूल्यांकन

स्थानीय मॉडलों पर स्व-प्रतिकृति एआई वर्म की खोज एक चेतावनी है। यह दर्शाता है कि एआई एजेंटों की सुविधा एक प्रणालीगत जोखिम के साथ आती है। हम ऐसे सिस्टम बना रहे हैं जिन्हें निर्देशों का पालन करने के लिए डिज़ाइन किया गया है, और जब वे किसी विरोधी द्वारा दिए गए निर्देशों का पालन करते हैं तो हम आश्चर्यचकित होते हैं। यह एआई की विफलता नहीं है। यह एआई के आसपास के आर्किटेक्चर की विफलता है।

सुरक्षा नेताओं को LLM को ब्लैक बॉक्स के रूप में मानना बंद करना चाहिए जो बस काम करते हैं। वे जटिल सॉफ्टवेयर सिस्टम हैं जिन्हें किसी भी अन्य एंटरप्राइज एप्लिकेशन के समान कठोर परीक्षण और सीमा नियंत्रण के स्तर की आवश्यकता होती है। पैचिंग को छोड़कर, सबसे प्रभावी बचाव मानसिकता में बदलाव है। प्रॉम्प्ट पर भरोसा न करें। मॉडल पर भरोसा न करें। आउटपुट पर भरोसा न करें। आज ही अपने स्थानीय एआई परिनियोजन का पूर्ण जोखिम मूल्यांकन करें और अपने आंतरिक डेटा से जुड़े प्रत्येक एजेंट की अनुमतियों का ऑडिट करें।

स्रोत:

  • NIST AI 100-1: आर्टिफिशियल इंटेलिजेंस रिस्क मैनेजमेंट फ्रेमवर्क
  • MITRE ATLAS (एडवरसैरियल थ्रेट लैंडस्केप फॉर आर्टिफिशियल-इंटेलिजेंस सिस्टम)
  • लार्ज लैंग्वेज मॉडल अनुप्रयोगों के लिए OWASP टॉप 10

अस्वीकरण: यह लेख केवल सूचनात्मक और शैक्षिक उद्देश्यों के लिए है और पेशेवर साइबर सुरक्षा ऑडिट या घटना प्रतिक्रिया सेवा की जगह नहीं लेता है।

bg
bg
bg

आप दूसरी तरफ देखिए।

हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।

/ एक नि: शुल्क खाता बनाएं