एक छोटी धातु की पिन एक घड़ीसाज़ की सटीकता के साथ चार मिलीमीटर के छेद में सरकती है। पिन को पकड़े हुए रोबोट का हाथ एक तरल, आत्मविश्वासी गति के साथ चलता है जो वर्षों के अभ्यास का सुझाव देता है। यह सफल क्रिया एक नई स्वचालित पाइपलाइन का अंतिम उत्पाद है। उस एकल सफल गतिविधि के पीछे सॉफ्टवेयर कमांड की एक जटिल श्रृंखला है। वे कमांड Claude या Codex जैसे AI कोडिंग एजेंट से आए थे। एजेंट स्वयं ENPIRE नामक एक फ्रेमवर्क के भीतर मौजूद है, जिसे Nvidia के शोधकर्ताओं ने हाल ही में सार्वजनिक रूप से पेश किया है। उस एजेंट को शक्ति देने के लिए, Nvidia ने GPU प्रोसेसिंग समय और डिजिटल टोकन का एक बड़ा बजट आवंटित किया। इस श्रृंखला की शुरुआत में एक सरल लक्ष्य है: कमरे में किसी इंसान के बिना मशीन को काम करना सिखाना।
Nvidia ने Carnegie Mellon और UC Berkeley के शोधकर्ताओं के सहयोग से हाल ही में ENPIRE का विवरण देते हुए एक पेपर जारी किया है। यह फ्रेमवर्क AI कोडिंग एजेंटों को रोबोट को प्रशिक्षित करने की पूरी प्रक्रिया को संभालने की अनुमति देता है। ये वही सॉफ्टवेयर टूल हैं जिनका उपयोग डेवलपर्स वेबसाइट कोड लिखने या एप्लिकेशन को डीबग करने के लिए करते हैं। ENPIRE सिस्टम में, ये एजेंट प्रशिक्षण कोड लिखने, भौतिक हार्डवेयर पर इसका परीक्षण करने और रोबोट के विफल होने पर त्रुटियों को ठीक करने के लिए जिम्मेदार होते हैं। पारंपरिक रूप से, एक मानव इंजीनियर इन गतिविधियों को ठीक करने में हफ्तों बिताता था। अब, आठ रोबोटों का एक बेड़ा उसी कौशल को समय के एक अंश में खुद को सिखा सकता है।
यह कैसे काम करता है, इसे समझने के लिए AI कोडिंग एजेंट को एक अथक प्रशिक्षु (intern) के रूप में सोचें। एक विशिष्ट लैब में, एक इंजीनियर को एक रोबोट को ब्लॉक उठाने की कोशिश करते हुए देखना पड़ता है, उसे विफल होते देखना पड़ता है, और फिर पकड़ को ठीक करने के लिए मैन्युअल रूप से कोड को फिर से लिखना पड़ता है। यह धीमा और महंगा है। ENPIRE मानव पर्यवेक्षक को एक डिजिटल लूप से बदल देता है। इस प्रक्रिया में दो प्रारंभिक चरण हैं जहाँ मनुष्य शामिल होते हैं। पहला, एक व्यक्ति एजेंट को 'रीसेट रूटीन' बनाने में मदद करता है। यह निर्देशों का एक सेट है जो रोबोट को बताता है कि विफल प्रयास के बाद कार्यक्षेत्र को उसकी मूल स्थिति में कैसे वापस लाया जाए। दूसरा, मानव एक 'रिवॉर्ड फंक्शन' बनाने में मदद करता है। यह एक AI रेफरी है जो कैमरा फुटेज देखता है और यह तय करता है कि रोबोट सफल हुआ या विफल।
एक बार जब ये दो उपकरण तैयार हो जाते हैं, तो मनुष्य चले जाते हैं। AI एजेंट सबसे अच्छे प्रशिक्षण तरीकों के लिए अकादमिक पेपर खोजकर अपनी शिफ्ट शुरू करता है। यह एक रणनीति चुनता है, आवश्यक Python कोड लिखता है, और उसे रोबोटिक हाथों को भेजता है। यदि रोबोट पिन गिरा देता है या लक्ष्य से चूक जाता है, तो एजेंट विफलता को देखता है, डेटा का विश्लेषण करता है और कोड को फिर से लिखता है। यह भौतिक दुनिया में 'ऑटो-रिसर्च' है। जब इंसान सोते हैं, तो एजेंट सैकड़ों प्रयोग करते हैं। वे ऊबते नहीं हैं, और उन्हें कॉफी ब्रेक की आवश्यकता नहीं होती है। परीक्षण और त्रुटि का यह निरंतर चक्र ही सिस्टम को जटिल भौतिक कार्यों पर 99% सफलता दर तक पहुँचने की अनुमति देता है।
ENPIRE की असली ताकत तब स्पष्ट होती है जब सिस्टम एक रोबोट से बेड़े (fleet) की ओर बढ़ता है। Nvidia ने अपने प्राथमिक प्रयोग के लिए आठ द्विपक्षीय (bimanual) रोबोट स्टेशनों का उपयोग किया। ये स्टेशन अलग-थलग नहीं हैं। वे Git के माध्यम से जुड़े हुए हैं, जो कि सॉफ्टवेयर डेवलपर्स द्वारा कोड में बदलाव साझा करने और ट्रैक करने के लिए उपयोग किया जाने वाला मानक उपकरण है। जब एक रोबोट ग्राफिक्स कार्ड डालने या ज़िप-टाई काटने का बेहतर तरीका खोजता है, तो वह उस कोड को एक साझा रिपॉजिटरी में डाल देता है। अन्य सात रोबोट तुरंत अपडेट डाउनलोड कर लेते हैं।
यह साझा बुद्धिमत्ता एक विशाल गति लाभ पैदा करती है। Push-T नामक कार्य में, जहाँ एक रोबोट को T-आकार के ब्लॉक को एक विशिष्ट क्षेत्र में खिसकाना होता है, एक एकल रोबोट को गति में महारत हासिल करने में लगभग पांच घंटे लगे। जब शोधकर्ताओं ने सभी आठ रोबोटों को चालू किया, तो समय घटकर केवल दो घंटे रह गया। यही प्रवृत्ति पिन इंसर्शन में भी दिखाई दी। एक एकल हाथ को विश्वसनीय बनने के लिए 90 मिनट से अधिक की आवश्यकता थी, लेकिन बेड़े ने 40 मिनट में काम पूरा कर लिया।
| कार्य | एकल रोबोट प्रशिक्षण समय | आठ-रोबोट बेड़े का प्रशिक्षण समय | अंतिम सफलता दर |
|---|---|---|---|
| Push-T | 5 घंटे | 2 घंटे | 99% |
| पिन इंसर्शन | 90 मिनट | 40 मिनट | 99% |
| ज़िप-टाई कटिंग | लागू नहीं | त्वरित | 99% |
| GPU सीटिंग | लागू नहीं | त्वरित | 99% |
बड़ी तस्वीर को देखते हुए, यह सुझाव देता है कि रोबोटिक्स में बाधा कभी हार्डवेयर नहीं रही है। सीमा मानवीय निर्देश की गति थी। रोबोटों को एक केंद्रीय कोडिंग एजेंट के माध्यम से एक-दूसरे से बात करने की अनुमति देकर, सीखने की प्रक्रिया विकेंद्रीकृत और अविश्वसनीय रूप से तेज़ हो जाती है।
एक महत्वपूर्ण बाधा है जिसे AI शोधकर्ता 'सिम-टू-रियल गैप' (sim-to-real gap) कहते हैं। कंप्यूटर सिमुलेशन में रोबोट को कुछ सिखाना आसान है जहाँ गुरुत्वाकर्षण सही है और सतहों में कोई बनावट नहीं है। सिम्युलेटर में, हर T-आकार का ब्लॉक एक जैसा होता है, और हर मेज पूरी तरह से सपाट होती है। वास्तविक दुनिया अव्यवस्थित है। मेजों में घर्षण होता है, दिन भर रोशनी बदलती रहती है, और यांत्रिक भागों में छोटी-छोटी खामियां होती हैं।
ENPIRE प्रयोगों के दौरान, सिमुलेशन और वास्तविकता के बीच का अंतर स्पष्ट था। परीक्षण किए गए तीनों कोडिंग एजेंटों—OpenAI के Codex, Anthropic के Claude Code, और Moonshot के Kimi Code—ने वर्चुअल किचन में Push-T कार्य को आसानी से हल कर लिया। हालाँकि, जब कोड वास्तविक भौतिक रोबोटों पर स्थानांतरित किया गया, तो उन तीन में से दो एजेंट शुरू में विफल रहे। वे एक वास्तविक मेज के भौतिक विज्ञान के साथ संघर्ष कर रहे थे। एजेंटों को प्लास्टिक ब्लॉक के वास्तव में सतह पर फिसलने के तरीके को समझने के लिए अपने कोड को कई बार फिर से लिखना पड़ा। यह इस बात पर प्रकाश डालता है कि रोबोटिक्स के लिए भौतिक परीक्षण अभी भी स्वर्ण मानक क्यों है। एक AI डिजिटल दुनिया में जीनियस हो सकता है और फिर भी लैब में ज़िप-टाई काटने में विफल हो सकता है क्योंकि उसने प्लास्टिक के मुड़ने के तरीके पर ध्यान नहीं दिया।
हालांकि बचा हुआ समय प्रभावशाली है, लेकिन यह मुफ्त नहीं है। AI एजेंटों को शो चलाने देने की एक छिपी हुई लागत है। हर बार जब Claude Code जैसा एजेंट किसी समस्या के बारे में सोचता है, तो वह टोकन की खपत करता है। ये टोकन बड़े भाषा मॉडल द्वारा संसाधित डेटा का प्रतिनिधित्व करते हैं, और उनकी वास्तविक कीमत होती है। Nvidia ने नोट किया कि एक रोबोट से आठ तक विस्तार करने से प्रशिक्षण समय आधे से अधिक कम हो गया, लेकिन टोकन बिल और भी तेज़ी से बढ़ा।
अनिवार्य रूप से, सिस्टम सस्ते मानव समय का महंगे कंप्यूटर समय के साथ व्यापार कर रहा है। Nvidia जैसी दिग्गज कंपनी के लिए, जिसके पास चिप्स और डेटा सेंटर हैं, यह एक जीतने वाला सौदा है। एक छोटे स्टार्टअप के लिए, एक AI एजेंट को एक हजार विफल प्रयोगों के माध्यम से "सोचने" देने की लागत एक मानव इंजीनियर को काम पर रखने से अधिक हो सकती है। यह बाजार में एक विभाजन पैदा करता है। सबसे अधिक कंप्यूटिंग शक्ति वाली कंपनियां संभवतः सबसे सक्षम रोबोट बनाने वाली कंपनियां होंगी क्योंकि वे स्वचालित विफलता की उच्च लागत वहन कर सकती हैं।
औसत उपयोगकर्ता के लिए, यह शोध उन रोबोटों की ओर पहला कदम है जो वास्तव में घर में उपयोगी हैं। अधिकांश वर्तमान घरेलू रोबोट, जैसे बुनियादी वैक्यूम क्लीनर, कठोर नियमों के साथ प्रोग्राम किए गए हैं। यदि आप अपना फर्नीचर हटाते हैं या नया कालीन खरीदते हैं, तो वे संघर्ष करते हैं। ENPIRE जैसे सिस्टम द्वारा संचालित रोबोट को नए काम को संभालने के लिए निर्माता से सॉफ्टवेयर अपडेट की आवश्यकता नहीं होगी। यह सैद्धांतिक रूप से एक दोपहर यह "अभ्यास" करने में बिता सकता है कि आपके विशिष्ट ब्रांड के कपड़े कैसे तह करने हैं या आपके विशिष्ट डिशवॉशर को कैसे लोड करना है।
बाजार की बात करें तो, हम अमेरिका और चीन के बीच एक दौड़ देख रहे हैं। जिस सप्ताह Nvidia ने ENPIRE जारी किया, उसी सप्ताह Alibaba ने अपना Qwen-Robot Suite पेश किया। Alibaba उन सॉफ्टवेयर दिमागों पर ध्यान केंद्रित कर रहा है जो किसी भी रोबोट शरीर पर काम कर सकते हैं, जबकि Nvidia परीक्षण कर रहा है कि उसका अपना हार्डवेयर खुद को कैसे बेहतर बना सकता है। यह प्रतिस्पर्धा उपभोक्ताओं के लिए अच्छी है। इसका मतलब है कि रोबोट को स्मार्ट बनाने की तकनीक विशुद्ध रूप से सैद्धांतिक क्षेत्र से बाहर निकलकर कारखाने और घर में आ रही है।
व्यावहारिक रूप से, हम प्रोग्राम किए गए रोबोटों के युग से दूर जा रहे हैं और प्रशिक्षित (coached) रोबोटों के युग की ओर बढ़ रहे हैं। मनुष्य लक्ष्य और रेफरी प्रदान करता है, और AI पूर्णता प्राप्त करने तक अभ्यास करने के थकाऊ काम को संभालता है। अंततः, यह तकनीक के साथ हमारे बातचीत करने के तरीके को बदल देगा। मशीन का उपयोग करना सीखने के बजाय, हम बस मशीन को बताएंगे कि हम उसे क्या सिखाना चाहते हैं।
कोडिंग एजेंटों और रिवॉर्ड फंक्शन के शब्दजाल के पीछे एक सरल वास्तविकता है: मशीनें अपना मैनुअल खुद लिखना शुरू कर रही हैं। यह बदलाव संभवतः अधिक लचीले हार्डवेयर और अधिक सहज उपकरणों की ओर ले जाएगा। गौर करें कि आपके जीवन के उपकरण वर्तमान में आपको उनके अनुसार ढलने के लिए कैसे मजबूर करते हैं। कुछ वर्षों में, जैसे-जैसे ये स्वायत्त प्रशिक्षण लूप मानक बन जाएंगे, आपके घर के उपकरण वे होंगे जो आपके अनुसार ढलेंगे।
स्रोत: Nvidia GEAR Lab Research Paper, X/Twitter के माध्यम से Jim Fan की आधिकारिक घोषणाएं, और ENPIRE प्रोजेक्ट तकनीकी दस्तावेज।



हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।
/ एक नि: शुल्क खाता बनाएं