गोपनीयता के सिद्धांत

एआई का भूलने का अधिकार: मशीन अनलर्निंग अगला बड़ा गोपनीयता मोर्चा क्यों है

'मशीन अनलर्निंग' की चुनौती का पता लगाएं और जानें कि कैसे भूल जाने का अधिकार जनरेटिव एआई और लार्ज लैंग्वेज मॉडल्स के पुन: डिज़ाइन को मजबूर कर रहा है।
एआई का भूलने का अधिकार: मशीन अनलर्निंग अगला बड़ा गोपनीयता मोर्चा क्यों है

2014 में, यूरोपीय न्यायालय ने एक ऐतिहासिक सिद्धांत स्थापित किया: "भूल जाने का अधिकार।" यह मानवीय स्वायत्तता की जीत थी, जिसने यह सुनिश्चित किया कि व्यक्ति खोज इंजन के परिणामों से पुरानी या अप्रासंगिक व्यक्तिगत जानकारी को हटाने का अनुरोध कर सकते हैं। एक दशक तक, इसका मतलब एक URL को हटाना या डेटाबेस प्रविष्टि को साफ करना था—एक सर्जिकल, बाइनरी ऑपरेशन।

लेकिन जैसे-जैसे हम जनरेटिव एआई के युग में गहराई से बढ़ रहे हैं, वह सर्जरी असीमित रूप से जटिल हो गई है। आज, हमारा डेटा केवल पंक्तियों और स्तंभों में संग्रहीत नहीं है; यह लार्ज लैंग्वेज मॉडल्स (LLMs) के सांख्यिकीय ताने-बाने में बुना हुआ है। जब एक मॉडल आपका चेहरा, आपकी लेखन शैली, या आपका व्यक्तिगत इतिहास "सीखता" है, तो वह कोई फ़ाइल सहेजता नहीं है। यह अरबों गणितीय भारों (weights) को समायोजित करता है। स्थिर भंडारण से संभाव्य स्मृति (probabilistic memory) की ओर इस बदलाव ने मानवाधिकारों और मशीन आर्किटेक्चर के बीच एक मौलिक तनाव पैदा कर दिया है।

डिजिटल मेमोरी की वास्तुकला

यह समझने के लिए कि "अनलर्निंग" इतना कठिन क्यों है, एक पारंपरिक डेटाबेस की कल्पना एक फाइलिंग कैबिनेट के रूप में करें। यदि आप किसी दस्तावेज़ को हटाना चाहते हैं, तो आप बस फ़ोल्डर निकालते हैं और उसे नष्ट कर देते हैं। बाकी कैबिनेट अछूता रहता है।

जनरेटिव एआई सूप के एक विशाल बर्तन की तरह अधिक कार्य करता है। प्रशिक्षण के दौरान उपयोग किए गए डेटा का प्रत्येक टुकड़ा शोरबे में मिलाया गया एक घटक है। आप पूरे बर्तन के स्वाद को बदले बिना तैयार मिनेस्ट्रोन सूप से नमक या काली मिर्च के एक विशिष्ट दाने को आसानी से नहीं निकाल सकते। एक LLM में, आपका व्यक्तिगत डेटा पूरे न्यूरल नेटवर्क में वितरित होता है। चूंकि ये पैरामीटर एक-दूसरे पर निर्भर हैं, इसलिए एक विशिष्ट व्यक्ति के प्रभाव को हटाने के लिए अक्सर मॉडल को शुरू से फिर से प्रशिक्षित करने की आवश्यकता होती है—एक ऐसी प्रक्रिया जिसमें लाखों डॉलर और महीनों का कंप्यूट समय खर्च होता है।

कानूनी टकराव का मार्ग

नियामक तेजी से "यह बहुत कठिन है" को तकनीकी बहाने के रूप में स्वीकार करने के लिए तैयार नहीं हैं। यूरोप में GDPR और कैलिफोर्निया में CCPA के तहत, मिटाने का अधिकार तकनीक-अज्ञेयवादी है। यदि कोई मॉडल आपके घर का पता बता सकता है या आपके निजी पत्राचार को दोहरा सकता है, तो वह मॉडल तकनीकी रूप से आपके डेटा को संसाधित कर रहा है।

हम अदालतों के "डेटा कब्जे" को देखने के तरीके में बदलाव देख रहे हैं। अब यह केवल इस बारे में नहीं है कि फ़ाइल कहाँ स्थित है, बल्कि यह कि सिस्टम कैसा व्यवहार करता है। यदि कोई एआई "सदस्यता अनुमान हमलों" (membership inference attacks) के माध्यम से संवेदनशील जानकारी का पुनर्निर्माण कर सकता है—जहाँ एक हैकर यह देखने के लिए मॉडल की जांच करता है कि क्या विशिष्ट डेटा उसके प्रशिक्षण सेट का हिस्सा था—तो गोपनीयता जोखिम बना रहता है, भले ही कच्चे डेटा को प्रशिक्षण सर्वर से हटा दिया गया हो।

मशीन अनलर्निंग का उदय

इसके जवाब में, "मशीन अनलर्निंग" नामक अनुसंधान का एक नया क्षेत्र उभरा है। इसका लक्ष्य ऐसे एल्गोरिदम विकसित करना है जो मॉडल की समग्र उपयोगिता को नष्ट किए बिना विशिष्ट डेटा बिंदुओं के प्रभाव को घटा सकें।

विधि यह कैसे काम करता है गुण दोष
SISA (स्लाइसिंग) मॉडल को छोटे, अलग-थलग टुकड़ों (shards) में प्रशिक्षित करता है। केवल एक टुकड़े को फिर से प्रशिक्षित करना आसान। उच्च भंडारण ओवरहेड।
ग्रेडिएंट स्क्रबिंग विशिष्ट डेटा के लिए अनुकूलन चरणों को उलट देता है। पूर्ण पुनर्प्रशिक्षण की तुलना में तेज़। समग्र सटीकता को कम कर सकता है।
प्रभाव कार्य (Influence Functions) पहचानता है कि कौन से न्यूरॉन्स लक्षित डेटा को "याद" रखते हैं। अत्यधिक लक्षित। बड़े मॉडलों के लिए गणनात्मक रूप से महंगा।
डिफरेंशियल प्राइवेसी प्रशिक्षण के दौरान गणितीय शोर जोड़ता है। डेटा को सीखे जाने से रोकता है। मॉडल को कम "स्मार्ट" बना सकता है।

पहचान के भविष्य के लिए यह क्यों महत्वपूर्ण है

भूलने का अधिकार केवल गोपनीयता से अधिक है; यह विकसित होने के अधिकार के बारे में है। यदि कोई एआई मॉडल पांच साल पहले के आपके डेटा के आधार पर आपके एक संस्करण को स्थायी रूप से फ्रीज कर देता है, तो यह आपको अपनी गलतियों से आगे बढ़ने या अपने सार्वजनिक व्यक्तित्व को बदलने की क्षमता से वंचित करता है। ऐसी दुनिया में जहां एआई-संचालित पृष्ठभूमि जांच और स्वचालित प्रतिष्ठा प्रणाली आदर्श बनती जा रही है, मशीन की भूलने की अक्षमता डिजिटल बोझ की आजीवन सजा बन जाती है।

संगठनों और उपयोगकर्ताओं के लिए व्यावहारिक कदम

जैसे-जैसे हम इस संक्रमण को पार करते हैं, डेवलपर्स और डेटा विषयों दोनों को एआई के युग में डिजिटल पदचिह्नों को प्रबंधित करने के लिए नई रणनीतियां अपनानी चाहिए।

डेवलपर्स और व्यवसायों के लिए:

  • डेटा वर्जनिंग लागू करें: सटीक रूप से ट्रैक करें कि किस मॉडल पुनरावृत्ति के लिए किन डेटासेट का उपयोग किया गया था ताकि लक्षित अपडेट संभव हो सकें।
  • गोपनीयता-संरक्षण प्रशिक्षण अपनाएं: फेडेरेटेड लर्निंग या डिफरेंशियल प्राइवेसी जैसी तकनीकों का उपयोग करें ताकि यह सुनिश्चित हो सके कि व्यक्तिगत डेटा बिंदु कभी भी मॉडल के "भार वहन करने वाले" हिस्से न बनें।
  • मॉड्यूलरिटी के लिए डिज़ाइन: मोनोलिथिक मॉडल से हटकर "विशेषज्ञों के मिश्रण" (mixture-of-experts) आर्किटेक्चर की ओर बढ़ें जहां विशिष्ट ज्ञान घटकों को बदला या अक्षम किया जा सके।

व्यक्तियों के लिए:

  • अपने सार्वजनिक पदचिह्न का ऑडिट करें: यह निगरानी करने के लिए टूल का उपयोग करें कि आपका व्यक्तिगत डेटा सार्वजनिक प्रशिक्षण सेट (जैसे Common Crawl) में कहां दिखाई देता है।
  • ऑप्ट-आउट अधिकारों का प्रयोग करें: OpenAI और Google सहित कई एआई प्रदाता अब आपके डेटा को भविष्य के प्रशिक्षण चक्रों से बाहर रखने का अनुरोध करने के लिए फॉर्म प्रदान करते हैं।
  • पॉइजनिंग टूल का उपयोग करें: कलाकारों और रचनाकारों के लिए, Nightshade या Glaze जैसे उपकरण डिजिटल फाइलों को सूक्ष्म रूप से बदल सकते हैं ताकि एआई मॉडल उनकी शैली को सटीक रूप से सीखने से बच सकें।

आगे का रास्ता

मानवाधिकारों के साथ जनरेटिव सिस्टम का सामंजस्य बिठाने के लिए हमारे तकनीक बनाने के तरीके में बदलाव की आवश्यकता है। हम एआई को प्रकृति की एक अजेय शक्ति के रूप में नहीं मान सकते; यह मनुष्यों द्वारा डिज़ाइन किया गया एक उपकरण है, और इसे मानवीय गरिमा के अधीन रहना चाहिए। भूलने का अधिकार यह सुनिश्चित करने की दिशा में पहला कदम है कि भले ही मशीनों की याददाश्त अनंत हो, लेकिन हमारे व्यक्तित्व पर उनका अंतिम शब्द नहीं होना चाहिए।

स्रोत

  • European Data Protection Board (EDPB) - Guidelines on the Right to be Forgotten
  • Journal of Artificial Intelligence Research - A Survey of Machine Unlearning
  • NIST AI Risk Management Framework
  • Stanford University - Foundation Models and Privacy Risks
bg
bg
bg

आप दूसरी तरफ देखिए।

हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।

/ एक नि: शुल्क खाता बनाएं