साइबर सुरक्षा

रिपॉजिटरी में भूत: कैसे भ्रमित निर्भरताएं सुरक्षित सॉफ्टवेयर आपूर्ति श्रृंखला को तोड़ रही हैं

जानें कि कैसे AI मतिभ्रम दुर्भावनापूर्ण पैकेज स्क़्वैटिंग से लेकर समझौता किए गए बिल्ड पाइपलाइन तक गंभीर सुरक्षा जोखिम पैदा करते हैं, और अपने सिस्टम की रक्षा कैसे करें।
रिपॉजिटरी में भूत: कैसे भ्रमित निर्भरताएं सुरक्षित सॉफ्टवेयर आपूर्ति श्रृंखला को तोड़ रही हैं

इसकी शुरुआत 2026 की शुरुआत में एक मध्यम आकार की वित्तीय सेवा फर्म में एक नियमित टिकट के साथ हुई। एक वरिष्ठ डेवऑप्स (DevOps) इंजीनियर को एक पुराने पायथन-आधारित मिडलवेयर को अनुकूलित करने का काम सौंपा गया था, जिसने एक जटिल डेटा सत्यापन रूटीन को रिफैक्टर करने के लिए अत्याधुनिक लार्ज लैंग्वेज मॉडल (LLM) का सहारा लिया। AI ने एक आकर्षक, 20-लाइन का समाधान प्रदान किया जिसमें fastapi-secure-auth-extension नामक लाइब्रेरी का कॉल शामिल था। लाइब्रेरी वैध लग रही थी, उसका सिंटैक्स सटीक था, और उसने समस्या को खूबसूरती से हल कर दिया। कुछ ही घंटों के भीतर, कोड की समीक्षा की गई, उसे मर्ज किया गया और स्टेजिंग वातावरण में भेज दिया गया।

समस्या यह थी कि fastapi-secure-auth-extension का अस्तित्व ही नहीं था—कम से कम, तीन सप्ताह पहले तक तो नहीं। एक थ्रेट एक्टर (threat actor), जो सामान्य LLM मतिभ्रम (hallucination) पैटर्न की निगरानी कर रहा था, ने पहचान लिया था कि कई लोकप्रिय मॉडल अक्सर इस गैर-मौजूद पैकेज का सुझाव देते हैं। नतीजतन, उन्होंने पायथन पैकेज इंडेक्स (PyPI) पर नाम पंजीकृत किया और इसे एक गुप्त, मल्टी-स्टेज क्रेडेंशियल हार्वेस्टर के साथ लोड कर दिया। जब तक बैंक के सुरक्षा संचालन केंद्र (SOC) ने पूर्वी यूरोप में एक संदिग्ध एंडपॉइंट पर अनधिकृत आउटबाउंड ट्रैफ़िक देखा, तब तक उनकी बिल्ड पाइपलाइन की अखंडता से समझौता किया जा चुका था।

जोखिम के दृष्टिकोण से, यह पारंपरिक फ़ायरवॉल या एन्क्रिप्शन की विफलता नहीं थी। यह उस युग में विश्वास की विफलता थी जहां उत्पन्न सामग्री और सत्यापन योग्य वास्तविकता के बीच की रेखाएं धुंधली हो गई हैं। एक संपादक के रूप में जिसने वर्षों तक उन्नत लगातार खतरों (APTs) का विश्लेषण किया है और एन्क्रिप्टेड सिग्नल चैनलों पर व्हाइट-हैट शोधकर्ताओं के साथ संचार किया है, मुझे हमले की सतह का यह विकास विशेष रूप से डरावना लगता है। अब हम केवल दुर्भावनापूर्ण कोड से नहीं लड़ रहे हैं; हम एक मशीन के गलत होने की सांख्यिकीय संभावना से लड़ रहे हैं।

जेनरेटिव AI का संभाव्यता जाल

यह समझने के लिए कि ये मतिभ्रम इतने खतरनाक क्यों हैं, हमें LLM के वास्तुशिल्प स्तर के पीछे देखना होगा। ये मॉडल डेटाबेस नहीं हैं; वे परिष्कृत ऑटो-कम्प्लीट इंजन हैं। वे टोकन और संभावनाओं पर काम करते हैं, प्रशिक्षण के दौरान सीखे गए पैटर्न के आधार पर पाठ के अगले हिस्से की भविष्यवाणी करते हैं। जब एक मॉडल का सामना एक विशिष्ट तकनीकी प्रश्न से होता है, तो वह तथ्यात्मक उत्तर नहीं खोजता है। इसके बजाय, वह एक प्रशंसनीय लगने वाले उत्तर का मतिभ्रम करता है।

सॉफ्टवेयर विकास की दुनिया में, इसका परिणाम वह होता है जिसे शोधकर्ता अब 'AI पैकेज मतिभ्रम' (AI Package Hallucination) कहते हैं। जब एक LLM ऐसी लाइब्रेरी का सुझाव देता है जो मौजूद नहीं है, तो यह एक शून्य पैदा करता है। दुर्भावनापूर्ण अभिनेता अब सक्रिय रूप से इन शून्यों को भर रहे हैं। वे स्वयं मॉडलों का उपयोग यह पहचानने के लिए करते हैं कि किन "नकली" लाइब्रेरी की सबसे अधिक सिफारिश की जाती है और फिर NPM, PyPI, या GitHub जैसे सार्वजनिक रिपॉजिटरी पर उन नामों को पंजीकृत करके 'क्लेम-जंपिंग' का डिजिटल संस्करण निष्पादित करते हैं।

खतरे के परिदृश्य को देखते हुए, यह सॉफ्टवेयर आपूर्ति श्रृंखला का एक मास्टरफुल विध्वंस है। हमने पिछले पांच साल जीरो ट्रस्ट (Zero Trust) और सॉफ्टवेयर बिल ऑफ मैटेरियल्स (SBOMs) के बारे में सोचने में बिताए हैं, फिर भी अब हम अपनी उत्पादकता बढ़ाने के लिए बनाए गए उपकरणों के माध्यम से एक बैकडोर बनते देख रहे हैं। पैचिंग को अलग रखते हुए, यह एक मौलिक डेटा अखंडता का मुद्दा है जिसके लिए "मानव फ़ायरवॉल" के प्रति हमारे दृष्टिकोण में बदलाव की आवश्यकता है।

कोड से परे: जब दस्तावेज़ीकरण झूठ बोलता है

जबकि भ्रमित पैकेज डेवलपर्स के लिए सबसे प्रत्यक्ष खतरा हैं, जोखिम कुछ दुर्भावनापूर्ण लाइब्रेरी की तुलना में अधिक व्यापक है। उल्लंघन की स्थिति में, इंसिडेंट रिस्पॉन्डर्स अक्सर टाइमलाइन के पुनर्निर्माण के लिए दस्तावेज़ीकरण और सिस्टम लॉग पर भरोसा करते हैं। हालाँकि, जैसे-जैसे संगठन AI को अपने आंतरिक ज्ञान आधारों और SOC प्लेबुक्स में एकीकृत करते हैं, "आंतरिक मतिभ्रम" का जोखिम बढ़ता जाता है।

एक ऐसी स्थिति की कल्पना करें जहां एक स्वचालित सुरक्षा को-पायलट क्लाउड वातावरण के लिए एक विशिष्ट कॉन्फ़िगरेशन सेटिंग का मतिभ्रम करता है। यदि एक जूनियर एडमिनिस्ट्रेटर उस सलाह का पालन करता है, तो वे अनजाने में एक विस्तृत S3 बकेट खोल सकते हैं या एक मिशन-क्रिटिकल फ़ायरवॉल नियम को अक्षम कर सकते हैं, यह विश्वास करते हुए कि वे एक सर्वोत्तम अभ्यास का पालन कर रहे हैं। मैंने हाल ही में एक फोरेंसिक विश्लेषक से बात की जिसने एक गलत कॉन्फ़िगर किए गए कुबेरनेट्स (Kubernetes) क्लस्टर की खोज की जो एक AI द्वारा एक अप्रचलित और असुरक्षित फ्लैग का सुझाव देने का सीधा परिणाम था जो सॉफ्टवेयर के वर्तमान संस्करण में अब मौजूद नहीं था।

यह आधुनिक AI का वास्तुशिल्प विरोधाभास है: हम अपने नेटवर्क की जटिलता को प्रबंधित करने के लिए जितना अधिक इस पर भरोसा करते हैं, उतना ही हम गुप्त, सूक्ष्म कमजोरियों को पेश करते हैं जो पारंपरिक स्कैनिंग टूल के लिए अदृश्य हैं। AI दुर्भावनापूर्ण होने की कोशिश नहीं कर रहा है; यह केवल मददगार होने की कोशिश कर रहा है, और अपनी उत्सुकता में, यह एक डिजिटल ट्रोजन हॉर्स बनाता है।

CIA ट्रायड में अखंडता का संकट

अपनी रिपोर्टिंग में, मैं हमेशा CIA ट्रायड पर वापस जाता हूँ: गोपनीयता (Confidentiality), अखंडता (Integrity), और उपलब्धता (Availability)। दशकों से, उद्योग ने गोपनीयता (डेटा लीक को रोकना) और उपलब्धता (DDoS और रैंसमवेयर को रोकना) पर भारी ध्यान केंद्रित किया है। हालाँकि, AI मतिभ्रम अखंडता पर सीधा हमला है।

यदि सुरक्षा निर्णय लेने के लिए हम जिस डेटा का उपयोग करते हैं वह भ्रमित है, तो हमारी पूरी रक्षात्मक स्थिति ताश के पत्तों के घर की तरह हो जाती है। 2026 में हमले की सतह का आकलन करने के लिए हमें AI आउटपुट को तब तक संभावित रूप से विषाक्त मानने की आवश्यकता है जब तक कि अन्यथा सिद्ध न हो जाए। यही कारण है कि PGP के माध्यम से मैं जिन शोधकर्ताओं से संवाद करता हूँ, उनमें से कई अब "सत्यापन योग्य AI" (verifiable AI) ढांचे की वकालत कर रहे हैं। यह सिर्फ बुरे शब्दों को छानने के बारे में नहीं है; यह वास्तविक दुनिया के, आधिकारिक डेटा स्रोतों में AI प्रतिक्रियाओं को आधार बनाने के बारे में है—एक प्रक्रिया जिसे रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) के रूप में जाना जाता है।

हालाँकि, RAG भी कोई अचूक समाधान नहीं है। यदि पुनर्प्राप्त किया जा रहा अंतर्निहित डेटा समझौता किया गया है या यदि मॉडल पुनर्प्राप्त संदर्भ की गलत व्याख्या करता है, तो मतिभ्रम बना रहता है, भले ही वह अधिक परिष्कृत रूप में हो। सक्रिय रूप से बोलते हुए, हमें LLM को नेटवर्क पर एक अविश्वसनीय उपयोगकर्ता के रूप में मानना होगा।

व्यावहारिक रक्षा: मृगतृष्णा का ऑडिट कैसे करें

हम केवल AI पर प्रतिबंध नहीं लगा सकते; उत्पादकता लाभ इतने महत्वपूर्ण हैं कि उन्हें अनदेखा नहीं किया जा सकता। इसके बजाय, हमें एक लचीला ढांचा बनाना चाहिए जो कीबोर्ड पर बैठे "प्रतिभाशाली लेकिन पैथोलॉजिकल झूठे" को ध्यान में रखे। एक अंतिम-उपयोगकर्ता के दृष्टिकोण से, और निश्चित रूप से उद्यम नेताओं के लिए, निम्नलिखित कदम अब वैकल्पिक नहीं हैं:

  • सभी AI-जनरेटेड कोड के लिए मैन्युअल सत्यापन लागू करें: AI द्वारा सुझाया गया कोई भी लाइब्रेरी, फंक्शन या कॉन्फ़िगरेशन तब तक प्रोडक्शन में नहीं पहुंचना चाहिए जब तक कि कोई इंसान सार्वजनिक या निजी रिपॉजिटरी में उसके अस्तित्व और उत्पत्ति की पुष्टि न कर ले।
  • मतिभ्रम-जागरूक SCA लागू करें: आधुनिक सॉफ्टवेयर कंपोजिशन एनालिसिस (SCA) टूल को किसी भी ऐसी लाइब्रेरी को फ्लैग करने के लिए कॉन्फ़िगर किया जाना चाहिए जो बहुत हाल ही में पंजीकृत की गई थी या जिसका कोई स्पष्ट मेंटेनर इतिहास नहीं है, क्योंकि ये मतिभ्रम-स्क़्वैटिंग हमले के प्राथमिक संकेतक हैं।
  • सैंडबॉक्स्ड AI परीक्षण: AI द्वारा उत्पन्न किसी भी कोड स्निपेट या इन्फ्रास्ट्रक्चर-एज-कोड (IaC) टेम्प्लेट को पहले एक अलग, विकेंद्रीकृत वातावरण में निष्पादित किया जाना चाहिए। यह आपको कोड द्वारा आपके प्राथमिक नेटवर्क को छूने से पहले अनधिकृत आउटबाउंड कनेक्शन की निगरानी करने की अनुमति देता है।
  • AI एजेंटों के लिए सूक्ष्म अनुमति नियंत्रण: यदि आप AI एजेंटों का उपयोग कर रहे हैं जिनके पास आपके वातावरण में बदलाव करने का अधिकार है, तो उनकी अनुमतियों को सख्ती से सीमित किया जाना चाहिए। AI को कभी भी "गॉड मोड" या प्रशासनिक क्रेडेंशियल न दें; इसे हमेशा अपने कार्य को करने के लिए आवश्यक न्यूनतम विशेषाधिकार (least privilege) के साथ ही काम करना चाहिए।

आगे का रास्ता: विश्वास करें, लेकिन सत्यापित करें

दशकों पहले, हमने सीखा था कि हम नेटवर्क परिधि पर भरोसा नहीं कर सकते। हमने पुराने महल की खाई को जीरो ट्रस्ट से बदल दिया—हर आंतरिक दरवाजे पर एक वीआईपी क्लब बाउंसर। आज, हमें अपने स्वयं के उपकरणों द्वारा उत्पन्न जानकारी पर भी वही संदेह लागू करना चाहिए। शैडो आईटी (Shadow IT) कभी कॉर्पोरेट नेटवर्क का डार्क मैटर हुआ करता था, लेकिन आज, शैडो "इंटेलिजेंस" बड़ा जोखिम है।

जैसे-जैसे मैं इन उभरते खतरों को ट्रैक करना जारी रखता हूँ, मेरा स्वस्थ पागलपन (paranoia) केवल बढ़ता ही जाता है। हर बार जब मैं किसी डेवलपर को सेकंडों में एक जटिल बग को हल करने के लिए चैटबॉट की प्रशंसा करते हुए देखता हूँ, तो मुझे आश्चर्य होता है कि उस समाधान के बारीक अक्षरों में क्या छिपा है। अखंडता सुरक्षा का आधार है। यदि हम एक तथ्य और सांख्यिकीय रूप से संभावित झूठ के बीच अंतर करने की क्षमता खो देते हैं, तो हम अपने सिस्टम की रक्षा करने की क्षमता खो देते हैं।

आपका अगला कदम स्पष्ट है: आज ही अपने विकास वर्कफ़्लो का ऑडिट करें। क्या आपके इंजीनियरों के पास AI-सुझाई गई निर्भरताओं को सत्यापित करने के लिए कोई प्रोटोकॉल है? यदि उत्तर नहीं है, तो आप केवल AI का उपयोग नहीं कर रहे हैं; आप एक डिजिटल बंधक स्थिति की मेजबानी कर रहे हैं जो कभी भी घटित हो सकती है।

स्रोत:

  • NIST AI 100-1: Artificial Intelligence Risk Management Framework
  • MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems)
  • OWASP Top 10 for Large Language Model Applications
  • Industry analysis from Snyk and Lasso Security on Package Hallucinations (2024-2025)

अस्वीकरण: यह लेख केवल सूचनात्मक और शैक्षिक उद्देश्यों के लिए प्रदान किया गया है। यह पेशेवर कानूनी या साइबर सुरक्षा सलाह नहीं है। संगठनों को अपने स्वयं के स्वतंत्र जोखिम मूल्यांकन करने चाहिए और नए सुरक्षा प्रोटोकॉल या AI एकीकरण लागू करने से पहले योग्य साइबर सुरक्षा पेशेवरों से परामर्श करना चाहिए।

bg
bg
bg

आप दूसरी तरफ देखिए।

हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।

/ एक नि: शुल्क खाता बनाएं