आर्टिफिशियल इंटेलिजेंस के क्षेत्र में वर्चस्व की दौड़ एक विवादास्पद नए अध्याय में प्रवेश कर चुकी है। जबकि दुनिया तेजी से शक्तिशाली होते लार्ज लैंग्वेज मॉडल्स (LLMs) की रिलीज को देख रही है, वहीं उन्हें प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा पर एक गुप्त युद्ध लड़ा जा रहा है। चौंकाने वाली रिपोर्टों की एक श्रृंखला में, प्रमुख अमेरिकी एआई फर्मों—जिनमें एंथ्रोपिक, ओपनएआई और गूगल शामिल हैं—ने कई प्रमुख चीनी एआई स्टार्टअप्स पर "डिस्टिलेशन अटैक" (distillation attack) के रूप में जानी जाने वाली तकनीक के माध्यम से वर्षों के अनुसंधान और अरबों डॉलर के निवेश को बायपास करने का आरोप लगाया है।
नवीनतम विवाद के केंद्र में एंथ्रोपिक है, जो क्लॉड (Claude) श्रृंखला के मॉडलों का निर्माता है। कंपनी ने हाल ही में खुलासा किया कि उसने अपनी बौद्धिक संपदा को चुराने के एक बड़े, समन्वित प्रयास का पता लगाया है। एंथ्रोपिक के अनुसार, डीपसीक (DeepSeek), मूनशॉट एआई (Moonshot AI) और मिनीमैक्स (MiniMax) जैसी फर्मों ने क्लॉड के साथ 16 मिलियन से अधिक बातचीत उत्पन्न करने के लिए कथित तौर पर 24,000 से अधिक फर्जी खातों का उपयोग किया। लक्ष्य? क्लॉड के परिष्कृत तर्क और लॉजिक का उपयोग करके बहुत कम लागत पर अपने स्वयं के प्रतिस्पर्धी मॉडल प्रशिक्षित करना।
यह समझने के लिए कि ये आरोप इतने महत्वपूर्ण क्यों हैं, मॉडल डिस्टिलेशन की अवधारणा को समझना आवश्यक है। एक वैध शोध संदर्भ में, डिस्टिलेशन एक सामान्य तकनीक है जहाँ एक छोटे, अधिक कुशल "छात्र" (student) मॉडल को एक बड़े, अधिक जटिल "शिक्षक" (teacher) मॉडल के व्यवहार की नकल करने के लिए प्रशिक्षित किया जाता है। यह डेवलपर्स को तेज़, हल्का एआई बनाने की अनुमति देता है जो स्मार्टफोन या स्थानीय हार्डवेयर पर चल सकता है, जबकि एक विशाल डेटा-सेंटर-ग्रेड मॉडल की अधिकांश बुद्धिमत्ता को बरकरार रखता है।
हालाँकि, एक डिस्टिलेशन अटैक तब होता है जब कोई प्रतियोगी बिना अनुमति के किसी प्रतिद्वंद्वी के मॉडल के एपीआई (एप्लिकेशन प्रोग्रामिंग इंटरफेस) का उपयोग करके व्यवस्थित रूप से उसके ज्ञान को निकालने के लिए करता है। इसे एक ऐसे छात्र की तरह समझें, जो मूल पाठ्यपुस्तकों का अध्ययन करने और लैब वर्क करने के बजाय, बस एक विश्व स्तरीय प्रोफेसर द्वारा कहे गए हर शब्द को रिकॉर्ड करता है और उन रिकॉर्डिंग्स का उपयोग प्रतिद्वंद्वी कोर्स बनाने के लिए करता है। छात्र वर्षों के प्रयास और लाखों की ट्यूशन फीस बचाता है, जबकि प्रोफेसर का मूल कार्य अवमूल्यन का शिकार हो जाता है।
एंथ्रोपिक द्वारा रिपोर्ट की गई गतिविधि का पैमाना एक अत्यधिक औद्योगिक संचालन का सुझाव देता है। 24,000 अलग-अलग खाते बनाकर, हमलावर संभवतः "रेट लिमिट्स" (rate limits)—सुरक्षा ब्रेक जो एआई कंपनियां किसी भी एकल उपयोगकर्ता को संसाधनों को हड़पने या डेटा स्क्रैप करने से रोकने के लिए लगाती हैं—को दरकिनार करने का प्रयास कर रहे थे।
इन खातों में 16 मिलियन प्रश्नों को फैलाकर, चीनी फर्मों ने कथित तौर पर उच्च गुणवत्ता वाले "सिंथेटिक डेटा" का एक विशाल डेटासेट एकत्र किया। यह डेटा विशेष रूप से मूल्यवान है क्योंकि इसमें "चेन-ऑफ-थॉट" तर्क शामिल है जिसके लिए क्लॉड 3.5 और क्लॉड 4 जैसे मॉडल प्रसिद्ध हैं। डीपसीक या मूनशॉट एआई जैसी कंपनी के लिए, यह एकत्रित डेटा एक शॉर्टकट के रूप में कार्य करता है, जिससे उन्हें मूल खोज की खगोलीय लागत के बिना अपनी वर्तमान क्षमताओं और अत्याधुनिक तकनीक के बीच के अंतर को पाटने की अनुमति मिलती है।
एंथ्रोपिक अपनी शिकायतों में अकेला नहीं है। इस महीने की शुरुआत में, ओपनएआई और गूगल ने इसी तरह की चेतावनी जारी की थी, जिसमें उल्लेख किया गया था कि उनके मालिकाना मॉडलों से ऐसे पैटर्न में पूछताछ की जा रही थी जो चीनी तकनीकी क्षेत्र से जुड़ी संस्थाओं द्वारा स्वचालित डेटा संचयन का सुझाव देते थे।
यह प्रवृत्ति वैश्विक एआई दौड़ में बढ़ती हताशा को उजागर करती है। जैसे-जैसे अमेरिकी सरकार हाई-एंड एनवीडिया (NVIDIA) चिप्स—एआई प्रशिक्षण के लिए आवश्यक हार्डवेयर—पर निर्यात नियंत्रण कड़ा कर रही है, चीनी फर्में "कंप्यूट क्रंच" का सामना कर रही हैं। यदि वे कच्चे डेटा का उपयोग करके शुरू से मॉडल प्रशिक्षित करने के लिए हार्डवेयर तक नहीं पहुँच सकते हैं, तो उनके लिए आगे बढ़ने का सबसे व्यवहार्य रास्ता उन अमेरिकी कंपनियों द्वारा पहले से ही सिद्ध की गई बुद्धिमत्ता को "डिस्टिल" करना है जिनके पास चिप्स उपलब्ध हैं।
इन हमलों के निहितार्थ कॉर्पोरेट बैलेंस शीट से कहीं आगे तक फैले हुए हैं। हम एक "एआई शीत युद्ध" के सुदृढ़ीकरण को देख रहे हैं, जहाँ बौद्धिक संपदा प्राथमिक युद्धक्षेत्र है।
| विशेषता | मूल प्रशिक्षण | डिस्टिलेशन अटैक |
|---|---|---|
| लागत | अरबों (कंप्यूट + प्रतिभा) | लाखों (एपीआई शुल्क + स्क्रैपिंग) |
| समय सीमा | वर्षों का आर एंड डी | महीनों का डेटा संचयन |
| हार्डवेयर की आवश्यकता | हजारों H100/B200 GPUs | मानक क्लाउड इन्फ्रास्ट्रक्चर |
| डेटा स्रोत | विशाल वेब क्रॉल + मानवीय प्रतिक्रिया | प्रतिद्वंद्वी मॉडल के आउटपुट |
अमेरिकी नीति निर्माताओं के लिए, यह राष्ट्रीय सुरक्षा का विषय है। यदि चीनी फर्में विकास प्रक्रिया को सफलतापूर्वक "शॉर्ट-सर्किट" कर सकती हैं, तो एआई सुरक्षा और क्षमता में अमेरिका द्वारा वर्तमान में बनाई गई बढ़त समाप्त हो सकती है। इसके कारण एआई एपीआई प्रदाताओं के लिए सख्त "अपने ग्राहक को जानें" (KYC) आवश्यकताओं की मांग की गई है, जिससे एक शक्तिशाली एलएलएम तक पहुंच को बैंक खाते के समान स्तर की जांच के साथ प्रभावी ढंग से नियंत्रित किया जा सके।
एआई लैब अब केवल अपने मॉडल को स्मार्ट बनाने पर ध्यान केंद्रित नहीं कर रही हैं; वे उन्हें चोरी करना कठिन बनाने पर ध्यान केंद्रित कर रही हैं। वर्तमान में कई रक्षात्मक रणनीतियाँ तैनात की जा रही हैं:
जैसे-जैसे एआई परिदृश्य अधिक मुकदमेबाजी और रक्षात्मक होता जा रहा है, डेवलपर्स और व्यवसायों को अधिक प्रतिबंधात्मक वातावरण के लिए तैयार रहना चाहिए।
डीपसीक, मूनशॉट एआई और मिनीमैक्स के खिलाफ आरोप एआई उद्योग में एक मौलिक बदलाव का प्रतिनिधित्व करते हैं। "खुले शोध" का युग तेजी से समाप्त हो रहा है क्योंकि कंपनियों को एहसास हो रहा है कि उनके आउटपुट उनकी सबसे मूल्यवान संपत्ति हैं। जबकि अमेरिका कच्चे नवाचार में नेतृत्व करना जारी रखता है, डिस्टिलेशन के माध्यम से उस नवाचार को प्रतिबिंबित करने की वैश्विक प्रतिस्पर्धियों की क्षमता एक शक्तिशाली खतरा बनी हुई है। एआई शीत युद्ध अब एक सैद्धांतिक भविष्य नहीं है—यह वर्तमान की वास्तविकता है।



हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।
/ एक नि: शुल्क खाता बनाएं