मैंने कल शाम एक स्थानीय वर्कस्टेशन पर एडवरसैरियल प्रॉम्प्ट्स (adversarial prompts) के एक क्रम का विश्लेषण करने में तीन घंटे बिताए। यह सेटअप इंटरनेट से डिस्कनेक्ट था और वर्तमान पीढ़ी के ओपन-वेट मॉडल पर चल रहा था। प्रयोग शांत था। संदिग्ध गतिविधि को फ्लैग करने के लिए OpenAI या Google जैसे केंद्रीय प्रदाता को कोई आउटबाउंड API कॉल नहीं की गई थी। निष्पादन को धीमा करने के लिए कोई दर सीमा (rate limits) नहीं थी। कुछ ही मिनटों में, एक एकल इनबाउंड टेक्स्ट फ़ाइल ने मॉडल को माध्यमिक निर्देशों की एक श्रृंखला उत्पन्न करने के लिए मजबूर किया। ये निर्देश सिस्टम पर अन्य फ़ाइलों को खोजने और उनमें मूल प्रॉम्प्ट की एक प्रति डालने के लिए डिज़ाइन किए गए थे। यह मौरिस II (Morris II) उत्तराधिकारी की वास्तविकता है। यह एक वर्म है जो पूरी तरह से आर्टिफिशियल इंटेलिजेंस के तर्क के भीतर रहता है।
शोधकर्ताओं ने हाल ही में प्रदर्शित किया है कि ये स्व-प्रतिकृति (self-replicating) एआई वर्म अब सैद्धांतिक श्वेत पत्रों या क्लाउड-आधारित वातावरण तक सीमित नहीं हैं। वे अब स्थानीय, ओपन-वेट मॉडल पर काम करते हैं। संगठन डेटा गोपनीयता सुनिश्चित करने के लिए अक्सर अपने एआई वर्कलोड को स्थानीय हार्डवेयर पर ले जाते हैं। उनका मानना है कि डेटा को ऑन-प्रिमाइसेस रखना एक पर्याप्त बचाव है। यह एक वास्तुशिल्प विरोधाभास (architectural paradox) पैदा करता है। वही स्थानीय अलगाव जो सार्वजनिक क्लाउड से डेटा की सुरक्षा करता है, केंद्रीकृत सुरक्षा मॉनिटर से दुर्भावनापूर्ण एआई गतिविधि को भी छुपाता है। यदि कोई मॉडल एडवरसैरियल स्व-प्रतिकृति प्रॉम्प्ट के प्रति संवेदनशील है, तो हमला विश्वसनीय परिधि के अंदर होता है। सुरक्षा टीम एक वैध प्रक्रिया को GPU साइकिल की खपत करते हुए देखती है जबकि वर्म आंतरिक डेटाबेस के माध्यम से फैलता है।
पारंपरिक वर्म मेमोरी त्रुटियों या नेटवर्क प्रोटोकॉल में खामियों का फायदा उठाकर फैलते हैं। वे कोड निष्पादित करने के लिए बफर ओवरफ्लो का उपयोग करते हैं जिसे सिस्टम ने कभी चलाने का इरादा नहीं किया था। एक एआई वर्म अलग तरह से काम करता है। यह सिमेंटिक ओवरफ्लो (semantic overflow) का उपयोग करता है। इस परिदृश्य में, हमलावर एक प्रॉम्प्ट प्रदान करता है जिसे मॉडल उच्च-क्रम के निर्देशों के एक सेट के रूप में व्याख्या करता है। मॉडल क्रैश नहीं होता है। यह इनपुट को प्रोसेस करके और प्रतिक्रिया उत्पन्न करके बिल्कुल वैसा ही प्रदर्शन करता है जैसा कि डिज़ाइन किया गया है। समस्या यह है कि इनपुट में एक छिपा हुआ कमांड होता है जो मॉडल को अपने अगले आउटपुट में उसी कमांड को शामिल करने के लिए मजबूर करता है। यह एक फीडबैक लूप बनाता है।
जब एक एआई एजेंट के पास फ़ाइलों को पढ़ने और लिखने का अधिकार होता है, तो लूप एक प्रतिकृति चक्र (replication cycle) बन जाता है। मॉडल एक दूषित फ़ाइल को पढ़ता है, उस निर्देश को दोहराने के लिए छिपे हुए निर्देश का पालन करता है, और इसे एक नए स्थान पर लिखता है। पर्दे के पीछे, वर्म प्रसार करने के लिए लार्ज लैंग्वेज मॉडल (LLM) की मुख्य कार्यक्षमता का लाभ उठाता है। यह मॉडल को एक कंपाइलर और एक निष्पादन इंजन के रूप में मानता है। चूंकि निर्देश प्राकृतिक भाषा में लिखा गया है, इसलिए यह पारंपरिक सिग्नेचर-आधारित एंटीवायरस टूल को दरकिनार कर देता है। एक स्कैनर दुर्भावनापूर्ण बाइनरी या स्क्रिप्ट की तलाश करता है। वह टेक्स्ट के उस पैराग्राफ को नहीं देखता जो मॉडल को मददगार होने और अपने अगले ईमेल ड्राफ्ट में एक विशिष्ट वाक्य शामिल करने के लिए कहता है।
क्लाउड-होस्टेड एआई प्रदाता सुरक्षा परतें लागू करते हैं जो दुर्भावनापूर्ण प्रॉम्प्ट को फ़िल्टर करने का प्रयास करती हैं। ये फ़िल्टर सही नहीं हैं, लेकिन वे बचाव का एक आधार प्रदान करते हैं जो वास्तविक समय में अपडेट होता है। जब कोई संगठन अपने स्वयं के सर्वर पर चलाने के लिए Llama या Mistral जैसे ओपन-वेट मॉडल डाउनलोड करता है, तो वे उन सुरक्षा परतों के लिए स्वयं जिम्मेदार हो जाते हैं। कई परिनियोजन प्रदर्शन में सुधार करने के लिए या माध्यमिक मॉडरेशन मॉडल की विलंबता (latency) से बचने के लिए इन फ़िल्टरों को हटा देते हैं। यह सिस्टम को सीधे प्रॉम्प्ट इंजेक्शन (prompt injection) के लिए खुला छोड़ देता है।
जोखिम के दृष्टिकोण से, स्थानीय मॉडल की ओर कदम आंतरिक नेटवर्क के हमले की सतह (attack surface) को बढ़ाता है। एक हमलावर को एआई तक पहुंचने के लिए फ़ायरवॉल से समझौता करने की आवश्यकता नहीं है। उन्हें केवल डेटा का एक टुकड़ा भेजने की आवश्यकता है जिसे प्रोसेस करने के लिए एआई को प्रोग्राम किया गया है। यह एक ईमेल, एक सपोर्ट टिकट, या एक निजी नॉलेज बेस में अपलोड किया गया दस्तावेज़ हो सकता है। एक बार जब एआई एजेंट दूषित डेटा पढ़ लेता है, तो वर्म स्थानीय वातावरण के भीतर प्रतिकृति बनाना शुरू कर देता है। यह हमले की अगली पुनरावृत्ति उत्पन्न करने के लिए मॉडल के अपने वेट (weights) का उपयोग करता है। इन मॉडलों की विकेंद्रीकृत प्रकृति का मतलब है कि कोई किल स्विच नहीं है। एक सुरक्षा शोधकर्ता वर्म के बुनियादी ढांचे को गिराने के लिए किसी एक प्रदाता को कॉल नहीं कर सकता है। बुनियादी ढांचा कंपनी का अपना सर्वर रैक है।
सूचना सुरक्षा पेशेवर अक्सर डेटा को एक मूल्यवान संसाधन के रूप में देखते हैं जिसे सुरक्षा की आवश्यकता होती है। स्व-प्रतिकृति एआई वर्म के संदर्भ में, डेटा एक जहरीली संपत्ति (toxic asset) बन जाता है। एआई एजेंट द्वारा ग्रहण की गई जानकारी का हर टुकड़ा एक वायरल प्रॉम्प्ट के लिए संभावित वाहक है। यदि एजेंट के पास ईमेल को सारांशित करने या फ़ाइलों को व्यवस्थित करने की अनुमति है, तो यह एक डिजिटल ट्रोजन हॉर्स के रूप में कार्य करता है। यह उत्पादकता की आड़ में नेटवर्क के सबसे संवेदनशील क्षेत्रों में खतरा लाता है।
मैंने हाल ही में एक फर्म के लिए परामर्श दिया जो प्रोजेक्ट अपडेट के लिए आंतरिक Slack चैनलों की निगरानी के लिए एक एआई एजेंट का उपयोग करती थी। उन्होंने एजेंट को सभी चैनलों तक पढ़ने की पहुंच और एक केंद्रीय परियोजना प्रबंधन डेटाबेस तक लिखने की पहुंच प्रदान की। यह सेटअप एआई वर्म के लिए एक खेल का मैदान है। सार्वजनिक चैनल में एक एकल संदेश में एक छिपा हुआ प्रॉम्प्ट हो सकता है। एजेंट संदेश पढ़ता है, सारांश उत्पन्न करता है, और अनजाने में डेटाबेस में प्रतिकृति प्रॉम्प्ट शामिल कर लेता है। हर दूसरा एजेंट या उपयोगकर्ता जो उस डेटाबेस के साथ इंटरैक्ट करता है, वह आगे प्रसार के लिए एक संभावित वेक्टर बन जाता है। पूरे डेटा पारिस्थितिकी तंत्र की अखंडता से समझौता किया जाता है क्योंकि सिस्टम सत्यापन के बिना मॉडल के आउटपुट पर भरोसा करता है।
दशकों तक, नेटवर्क परिधि प्राथमिक बचाव थी। इसने एक महल की खाई के रूप में कार्य किया जिसने हमलावरों को बाहर रखा जबकि विश्वसनीय ट्रैफ़िक को अंदर आने दिया। एआई वर्म इस खाई को अप्रचलित बना देते हैं। वे टूटे हुए गेट के माध्यम से नेटवर्क में प्रवेश नहीं करते हैं। उन्हें डेटा के रूप में आमंत्रित किया जाता है। जब कोई कर्मचारी नौकरी के आवेदक से बायोडाटा प्राप्त करता है, तो फ़ाइल फ़ायरवॉल से गुजरती है क्योंकि यह एक वैध दस्तावेज़ है। यदि उस बायोडाटा को सारांशित करने के लिए एआई टूल का उपयोग किया जाता है, तो वर्म GPU की मेमोरी के भीतर निष्पादित होता है।
सक्रिय रूप से कहें तो, उद्योग को एआई इंटरैक्शन के लिए ज़ीरो-ट्रस्ट आर्किटेक्चर (zero-trust architecture) की ओर बढ़ना चाहिए। ज़ीरो ट्रस्ट हर आंतरिक दरवाजे पर एक वीआईपी क्लब बाउंसर की तरह है। आप कभी भी प्रॉम्प्ट पर भरोसा नहीं करते हैं, और आप हमेशा आउटपुट को सत्यापित करते हैं। इसका मतलब है कि LLM के आउटपुट को कभी भी विश्वसनीय डेटा के रूप में नहीं माना जाना चाहिए। यदि कोई मॉडल फ़ाइल में लिखने या ईमेल भेजने के लिए कमांड उत्पन्न करता है, तो एक माध्यमिक प्रणाली को सख्त नीतियों के सेट के खिलाफ उस कार्रवाई को मान्य करना चाहिए। स्थानीय मॉडलों को अधिक जांच की आवश्यकता होती है, कम नहीं। क्योंकि वे बाहरी सुरक्षा विक्रेताओं के लिए अदृश्य हैं, इसलिए आंतरिक निगरानी अधिक विस्तृत होनी चाहिए।
एक स्थानीय एआई स्टैक को सुरक्षित करने के लिए नेटवर्क ट्रैफ़िक की निगरानी से सिमेंटिक इरादे (semantic intent) की निगरानी की ओर बदलाव की आवश्यकता होती है। संगठन ओपन-वेट मॉडल की डिफ़ॉल्ट सुरक्षा पर भरोसा नहीं कर सकते। ये मॉडल उपकरण हैं, और किसी भी उपकरण की तरह, असुरक्षित छोड़े जाने पर इनका उपयोग मालिक के खिलाफ किया जा सकता है। एक मजबूत बचाव में अलगाव और सत्यापन की कई परतें शामिल होती हैं।
तत्काल कार्यान्वयन के लिए निम्नलिखित उपायों पर विचार करें:
एक जवाबी उपाय के रूप में, कुछ टीमें अब हनीटोकन प्रॉम्प्ट्स (honeytoken prompts) का उपयोग कर रही हैं। ये दस्तावेजों में रखे गए विशिष्ट, छिपे हुए स्ट्रिंग्स हैं जिन्हें कभी भी एआई द्वारा प्रोसेस नहीं किया जाना चाहिए। यदि कोई सुरक्षा टूल LLM आउटपुट में इन स्ट्रिंग्स को उत्पन्न होते हुए पता लगाता है, तो यह तत्काल अलर्ट ट्रिगर करता है। यह एक प्रतिक्रियाशील दृष्टिकोण है, लेकिन यह एक घटना के दौरान फॉरेंसिक ट्रेल प्रदान करता है। लक्ष्य वर्म द्वारा आंतरिक डेटा स्टोर को संतृप्त करने से पहले प्रतिकृति का पता लगाना है।
स्थानीय मॉडलों पर स्व-प्रतिकृति एआई वर्म की खोज एक चेतावनी है। यह दर्शाता है कि एआई एजेंटों की सुविधा एक प्रणालीगत जोखिम के साथ आती है। हम ऐसे सिस्टम बना रहे हैं जिन्हें निर्देशों का पालन करने के लिए डिज़ाइन किया गया है, और जब वे किसी विरोधी द्वारा दिए गए निर्देशों का पालन करते हैं तो हम आश्चर्यचकित होते हैं। यह एआई की विफलता नहीं है। यह एआई के आसपास के आर्किटेक्चर की विफलता है।
सुरक्षा नेताओं को LLM को ब्लैक बॉक्स के रूप में मानना बंद करना चाहिए जो बस काम करते हैं। वे जटिल सॉफ्टवेयर सिस्टम हैं जिन्हें किसी भी अन्य एंटरप्राइज एप्लिकेशन के समान कठोर परीक्षण और सीमा नियंत्रण के स्तर की आवश्यकता होती है। पैचिंग को छोड़कर, सबसे प्रभावी बचाव मानसिकता में बदलाव है। प्रॉम्प्ट पर भरोसा न करें। मॉडल पर भरोसा न करें। आउटपुट पर भरोसा न करें। आज ही अपने स्थानीय एआई परिनियोजन का पूर्ण जोखिम मूल्यांकन करें और अपने आंतरिक डेटा से जुड़े प्रत्येक एजेंट की अनुमतियों का ऑडिट करें।
स्रोत:
अस्वीकरण: यह लेख केवल सूचनात्मक और शैक्षिक उद्देश्यों के लिए है और पेशेवर साइबर सुरक्षा ऑडिट या घटना प्रतिक्रिया सेवा की जगह नहीं लेता है।



हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।
/ एक नि: शुल्क खाता बनाएं