कल्पना कीजिए कि एक अथक इंटर्न एक विशाल औद्योगिक परिसर में घूम रहा है। इस इंटर्न को कॉफी की जरूरत नहीं है, वह हजारवीं बार एक ही प्रेशर गेज को घूरने से कभी नहीं ऊबता, और अब वह एक अनुभवी इंजीनियर की सटीकता के साथ थोड़े ढीले बोल्ट और एक विनाशकारी पाइप विफलता के बीच अंतर बता सकता है। यह किसी साइंस-फिक्शन रीबूट का दृश्य नहीं है; यह Google DeepMind और Boston Dynamics के बीच नवीनतम सहयोग का मूर्त परिणाम है।
14 अप्रैल, 2026 को, Google ने Gemini Robotics-ER 1.6 जारी करने की घोषणा की, जो एक विशेष AI मॉडल है जिसे स्पॉट (Spot) जैसे चार पैरों वाले रोबोटों को 'एम्बॉडेड रीजनिंग' (embodied reasoning) देने के लिए डिज़ाइन किया गया है। सरल शब्दों में, इसका मतलब है कि रोबोट अब केवल रिमोट-कंट्रोल कैमरा नहीं रह गया है। यह उस भौतिक दुनिया को समझना शुरू कर रहा है जिसमें वह रहता है, एक साधारण उपकरण से एक स्वायत्त निरीक्षक के रूप में विकसित हो रहा है जो एनालॉग डायल पढ़ने और लगभग मानवीय सटीकता के साथ अव्यवस्थित कमरे में उपकरणों की पहचान करने में सक्षम है।
ऐतिहासिक रूप से, रोबोट दोहराव वाले कार्यों में शानदार रहे हैं लेकिन अवलोकन करने में बहुत खराब। यदि आप कार के दरवाजे को स्पॉट-वेल्ड करने के लिए एक रोबोटिक आर्म को प्रोग्राम करते हैं, तो वह इसे दस लाख बार पूरी तरह से करेगा। हालाँकि, यदि उस कार के दरवाजे को दो इंच बाईं ओर खिसका दिया जाए, तो रोबोट संभवतः खाली हवा में वेल्डिंग करना जारी रखेगा। अनुकूलन क्षमता की इस कमी ने रोबोटों को असेंबली लाइनों जैसे अत्यधिक नियंत्रित वातावरण तक ही सीमित रखा है।
इस नए अपडेट के पीछे कुछ ऐसा है जिसे Google 'एजेंटिक विजन' (agentic vision) कहता है। इसे एक विजुअल स्क्रैचपैड की तरह समझें। जब रोबोट एक जटिल दृश्य को देखता है—मान लीजिए, एक पुराने पावर प्लांट में 50 अलग-अलग एनालॉग गेज की दीवार—तो वह केवल एक फोटो नहीं लेता है। यह विशिष्ट तत्वों की ओर 'इशारा' करने, वह जो देखता है उसे सत्यापित करने के लिए कोड के छोटे स्निपेट्स निष्पादित करने और डेटा के माध्यम से तर्क करने के लिए AI मॉडल का उपयोग करता है।
व्यावहारिक रूप से, इससे प्रदर्शन में भारी उछाल आया है। इस मॉडल के पिछले संस्करण, संस्करण 1.5 ने केवल 23 प्रतिशत समय ही उपकरणों को सही ढंग से पढ़ने में सफलता पाई थी। नए 1.6 मॉडल ने उस सटीकता को आश्चर्यजनक रूप से 98 प्रतिशत तक बढ़ा दिया है। औसत उपयोगकर्ता के लिए, यह एक ऐसे GPS के बीच का अंतर है जो कभी-कभी आपको झील में गाड़ी चलाने के लिए कहता है और एक ऐसा जो बिना पसीना बहाए एक जटिल पांच-तरफा चौराहे पर रास्ता दिखाता है।
एक हाई-टेक रोबोट कुत्ते को 50 साल पुराने एनालॉग थर्मामीटर को पढ़ना सिखाने के लिए लाखों डॉलर खर्च करना उल्टा लग सकता है। थर्मामीटर को डिजिटल सेंसर से क्यों न बदल दिया जाए जो क्लाउड पर डेटा भेजता है?
बड़ी तस्वीर को देखें तो, वैश्विक औद्योगिक आधार अविश्वसनीय रूप से लचीला—और अविश्वसनीय रूप से पुराना है। एक रिफाइनरी या हुंडई ऑटोमोटिव प्लांट में हर मैनुअल वाल्व, साइट ग्लास और प्रेशर गेज को बदलने में अरबों की लागत आएगी और महीनों के डाउनटाइम की आवश्यकता होगी। रोबोट के अनुकूल दुनिया के पुनर्निर्माण की तुलना में रोबोट को मौजूदा उपकरणों को पढ़ने के लिए 'आंखें' देना कहीं अधिक स्केलेबल है।
यहीं पर Boston Dynamics के साथ साझेदारी महत्वपूर्ण हो जाती है। उनका रोबोट, स्पॉट, पहले से ही हुंडई मोटर ग्रुप के स्वामित्व वाली सुविधाओं में परीक्षण किया जा रहा है। Gemini Robotics-ER 1.6 का उपयोग करके, स्पॉट अब 'मल्टी-व्यू रीजनिंग' कर सकता है। यह अपने वातावरण को 3D में समझने के लिए अपनी विभिन्न कैमरा स्ट्रीम का उपयोग कर सकता है, यह सुनिश्चित करते हुए कि वह केवल एक गेज को नहीं देखता है, बल्कि यह भी समझता है कि वह गेज बाकी मशीनरी के संबंध में कहां स्थित है।
भौतिक दुनिया में AI के लिए सबसे बड़ी बाधाओं में से एक 'हलुसिनेशन' है—मॉडल की वह प्रवृत्ति जिसमें वह आत्मविश्वास से दावा करता है कि कुछ वहां है जबकि वह नहीं होता। चैटबॉट में, हलुसिनेशन एक मज़ेदार बात हो सकती है; एक भारी उद्योग सेटिंग में जहाँ एक रोबोट अस्थिर रसायनों की निगरानी कर रहा है, हलुसिनेशन एक सुरक्षा दुःस्वप्न है।
Google के परीक्षण ने दिखाया कि 1.6 मॉडल वास्तविकता से जुड़े रहने में बहुत बेहतर है। उपकरणों की एक अव्यवस्थित मेज से जुड़े परीक्षण में, पुराने मॉडल ने एक ऐसी हाथगाड़ी (wheelbarrow) 'देखी' जो मौजूद ही नहीं थी, सिर्फ इसलिए क्योंकि उसे उसे खोजने के लिए कहा गया था। इसके विपरीत, नए मॉडल ने 'ट्रिक' प्रश्न को नज़रअंदाज़ करते हुए हथौड़ों, कैंची और सरौता की सही पहचान की। यह बेहतर सटीकता रोबोटों को लैब से बाहर निकालकर अव्यवस्थित, अप्रत्याशित वास्तविक दुनिया में ले जाने के लिए आधारभूत है।
| विशेषता | Gemini Robotics-ER 1.5 | Gemini Robotics-ER 1.6 | Gemini 3.0 Flash |
|---|---|---|---|
| उपकरण पढ़ने की सटीकता | 23% | 98% | 67% |
| विजुअल रीजनिंग | बुनियादी | एजेंटिक (विजुअल स्क्रैचपैड) | मानक |
| सुरक्षा बाधाएं | मैनुअल | एकीकृत/प्रणालीगत | सामान्य |
| हलुसिनेशन दर | उच्च | निम्न | मध्यम |
सिर्फ डायल पढ़ने के अलावा, नए मॉडल को Google के अब तक के सबसे सुरक्षित मॉडल के रूप में वर्णित किया गया है। इसे भौतिक सुरक्षा बाधाओं को समझने के लिए प्रशिक्षित किया गया है, जैसे कि तरल पदार्थों को बिना गिराए कैसे संभालना है या मनुष्यों के आसपास कैसे चलना है।
दूसरे शब्दों में कहें तो, AI भौतिक दुनिया के 'सामान्य ज्ञान' के नियम सीख रहा है। यह अब जटिल परिदृश्यों में चोट के जोखिम को महसूस कर सकता है—जैसे यह पहचानना कि बिजली के आउटलेट के पास एक बच्चा उच्च जोखिम वाली स्थिति है। हालांकि हम अभी भी रोबोट के पास नैतिकता की मानव-स्तर की समझ होने से बहुत दूर हैं, 'एम्बॉडेड रीजनिंग' की ओर ये क्रमिक कदम रोबोटिक्स के विकेंद्रीकृत भविष्य के लिए आवश्यक हैं, जहां मशीनें सुरक्षा बाड़ के पीछे के बजाय हमारे साथ काम करती हैं।
उपभोक्ता के दृष्टिकोण से, संभावना कम है कि आपके पास जल्द ही आपके घर का थर्मोस्टेट पढ़ने वाला स्पॉट कुत्ता होगा। हालाँकि, इसके दूरगामी प्रभाव महत्वपूर्ण हैं।
अंततः, यह केवल एक थर्मामीटर को देखने वाले रोबोट कुत्ते के बारे में नहीं है। यह भौतिक उपस्थिति के साथ डिजिटल बुद्धिमत्ता के विलय के बारे में है। हम एक ऐसी दुनिया की ओर बढ़ रहे हैं जहाँ डेटा के 'डिजिटल कच्चे तेल' को उन मशीनों द्वारा निकाला और परिष्कृत किया जा रहा है जो अंततः दुनिया को उतनी ही स्पष्टता से देख सकती हैं जितनी हम।
जैसे-जैसे आप अपना दिन बिताते हैं, अपने आस-पास के अदृश्य औद्योगिक तंत्र को देखने के लिए एक क्षण निकालें—आपके बेसमेंट के पाइप, आपके घर के किनारे के मीटर, किराने की दुकान के पीछे की जटिल मशीनरी। दशकों से, इन्हें सुरक्षित रहने के लिए मानवीय आंखों की आवश्यकता रही है। अब हम एक ऐसे युग में प्रवेश कर रहे हैं जहाँ वे आँखें कभी नहीं झपकातीं, कभी नहीं थकतीं, और—एक विजुअल स्क्रैचपैड की बदौलत—शायद ही कभी कोई गलती करती हैं।



हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।
/ एक नि: शुल्क खाता बनाएं