अधिकांश तकनीकी सुर्खियां बताती हैं कि रोबोट आपके कपड़े तह करने और आपके कुत्ते को घुमाने से बस कुछ ही पल दूर हैं। वास्तव में, एक आधुनिक कारखाने में एक रोबोट को उसकी गति के हर एक सेंटीमीटर को प्रोग्राम करने के लिए इंजीनियरों की एक टीम की आवश्यकता होती है। यदि कन्वेयर बेल्ट पर कोई बॉक्स थोड़ा टेढ़ा बैठता है, तो पूरा सिस्टम रुक सकता है। भौतिक दुनिया अव्यवस्थित, अप्रत्याशित और सॉफ्टवेयर के लिए नेविगेट करना कठिन है। जबकि डिजिटल AI सेकंडों में कविता लिख सकता है, भौतिक AI यह समझने के लिए संघर्ष कर रहा है कि गेंद कैसे उछलती है या कांच कैसे टूटता है।
NVIDIA ने इस विशिष्ट अंतर को पाटने के लिए Cosmos 3 जारी किया है। कंपनी इसे भौतिक AI के लिए एक ओपन वर्ल्ड फाउंडेशन मॉडल कहती है। यह सिस्टम उन चैटबॉट्स से अलग है जिनका उपयोग आज कई लोग करते हैं। यह एक डिजिटल तंत्रिका तंत्र है जिसे मशीनों को भौतिक दुनिया को समझने और आगे क्या होने वाला है इसकी भविष्यवाणी करने में मदद करने के लिए डिज़ाइन किया गया है। बड़ी तस्वीर को देखते हुए, यह रिलीज AI को हमारे कंप्यूटर स्क्रीन से भारी उद्योग में ले जाने का एक कदम है जो आधुनिक जीवन की अदृश्य रीढ़ बनाता है।
हुड के नीचे, Cosmos 3 'मिक्सचर-ऑफ-ट्रांसफॉर्मर्स' आर्किटेक्चर का उपयोग करता है। यह सुनने में जटिल लगता है, लेकिन यह अनिवार्य रूप से AI को दो अलग-अलग प्रकार की सोचने की शक्ति देता है। पहला हिस्सा एक रीजनिंग ट्रांसफॉर्मर (reasoning transformer) है। इसे कार में उस नेविगेटर के रूप में सोचें जो मानचित्र को देखता है और सबसे अच्छा रास्ता तय करता है। यह पर्यावरण को समझने के लिए विजुअल जानकारी और स्थानिक संबंधों को प्रोसेस करता है। दूसरा हिस्सा एक एक्सपर्ट जनरेशन ट्रांसफॉर्मर (expert generation transformer) है। यह वह ड्राइवर है जो ठीक से जानता है कि पहिया कितना मोड़ना है और ब्रेक कब लगाना है।
इन दो संरचनाओं को जोड़कर, मॉडल कार्य करने की कोशिश करने से पहले वस्तु की बातचीत और गति को समझता है। अतीत में, रोबोट अक्सर फिक्स्ड स्क्रिप्ट पर निर्भर रहते थे। वे नहीं समझते थे कि वे एक निश्चित तरीके से क्यों चल रहे हैं। Cosmos 3 प्रक्षेपवक्र (trajectories) की भविष्यवाणी करने के लिए NVIDIA की 'लीडिंग फिजिक्स एक्यूरेसी' का उपयोग करता है। यदि किसी रोबोट को फिसलन वाली वस्तु उठाने की आवश्यकता होती है, तो मॉडल उसे यह समझने में मदद करता है कि घर्षण और गुरुत्वाकर्षण कार्य को कैसे प्रभावित करेंगे।
अधिकांश लोग उन भाषा मॉडलों से परिचित हैं जो टेक्स्ट को प्रोसेस करते हैं। Cosmos 3 एक ओम्नीमॉडल (omnimodel) है, जिसका अर्थ है कि यह एक साथ विभिन्न प्रकार के डेटा को संभालता है। यह टेक्स्ट, इमेज, वीडियो और एम्बिएंट साउंड को समझता है। यह एक ऐसी मशीन बनाने का एक सुव्यवस्थित तरीका है जो वास्तव में मानवीय वातावरण में जीवित रह सके। एक गोदाम में एक रोबोट को एक फोर्कलिफ्ट को आते हुए देखने, उसकी चेतावनी बीप सुनने और एक ही समय में स्क्रीन पर टेक्स्ट-आधारित निर्देश को समझने की आवश्यकता होती है।
यह मॉडल अपना डेटा खुद भी जेनरेट करता है। यह रोबोटिक्स में एक बड़ी समस्या का व्यावहारिक समाधान है। रोबोट को यह सिखाने के लिए कि क्या नहीं करना है, वास्तविक दुनिया में रोबोट के विफल होने के हजारों घंटों के वीडियो बनाना बहुत महंगा और धीमा है। Cosmos 3 सिंथेटिक डेटा, या डिजिटल अभ्यास सत्र बनाता है, जहाँ रोबोट किसी हार्डवेयर को छूने से पहले सिमुलेशन में लाखों बार विफल हो सकते हैं। यह बड़े पैमाने पर वास्तविक दुनिया के प्रशिक्षण सेटों की आवश्यकता को कम करता है और तेजी से विकास की अनुमति देता है।
मैकिन्से (McKinsey) के उद्योग शोधकर्ताओं का सुझाव है कि रोबोटिक्स जल्द ही सिमुलेशन से वास्तविकता के अंतर को पार कर लेगा। ऐतिहासिक रूप से, मनुष्यों को सुरक्षित रखने के लिए रोबोट असेंबली लाइनों पर पिंजरों में काम करते थे। आज, वे गतिशील सेटिंग्स में काम करते हैं जहाँ उन्हें चलते हुए लोगों और बदलती वस्तुओं के अनुकूल होना चाहिए। इसके लिए स्वायत्तता की आवश्यकता होती है जो पुराने सॉफ्टवेयर प्रदान नहीं कर सकते थे।
| विशेषता | पारंपरिक रोबोटिक्स सॉफ्टवेयर | NVIDIA Cosmos 3 भौतिक AI |
|---|---|---|
| वातावरण | नियंत्रित, स्थिर पिंजरे | गतिशील, अप्रत्याशित स्थान |
| प्रशिक्षण डेटा | हैंड-कोडेड स्क्रिप्ट | सिंथेटिक डेटा और विजन मॉडल |
| परिवर्तन के प्रति प्रतिक्रिया | यदि कोई हिस्सा हिल जाए तो अक्सर विफल हो जाता है | तुरंत अनुकूलित होने के लिए भौतिकी की भविष्यवाणी करता है |
| इनपुट प्रकार | सीमित सेंसर डेटा | वीडियो, ध्वनि, टेक्स्ट और स्थानिक डेटा |
| हार्डवेयर | एकल-उद्देश्य वाली मशीनें | सार्वभौमिक भौतिक AI एजेंट |
डेलॉइट (Deloitte) का अनुमान है कि औद्योगिक रोबोटों की वैश्विक स्थापित क्षमता 2026 तक 5.5 मिलियन तक पहुंच जाएगी। यह वृद्धि मशीनों के अधिक सहज होने पर निर्भर करती है। जब एक रोबोट के पास Cosmos 3 जैसा फाउंडेशन मॉडल होता है, तो उसे हर नए कार्य के लिए पुन: प्रोग्राम करने की आवश्यकता नहीं होती है। उसे इस बात की सामान्य समझ होती है कि दुनिया कैसे काम करती है।
NVIDIA इस तकनीक को बंद दरवाजों के पीछे नहीं रख रहा है। कंपनी ने कॉसमॉस गठबंधन (Cosmos Coalition) लॉन्च किया है, जिसमें ब्लैक फॉरेस्ट लैब्स और रनवे जैसे डेवलपर्स और वर्ल्ड मॉडल बिल्डर्स शामिल हैं। यह विकास के लिए एक विकेंद्रीकृत दृष्टिकोण है। मॉडल को ओपन बनाकर, NVIDIA अन्य कंपनियों को अपने शोध और डेटा का योगदान करने की अनुमति देता है।
औसत उपयोगकर्ता के लिए, इसका मतलब है कि रोबोट के विभिन्न ब्रांड या स्वायत्त कारें भौतिकी को समझने के लिए एक सामान्य भाषा साझा कर सकते हैं। सैमसंग और एलजी जैसी प्रमुख इलेक्ट्रॉनिक्स कंपनियां पहले से ही इस प्लेटफॉर्म का उपयोग कर रही हैं। ऑटोमोटिव क्षेत्र में, ली ऑटो (Li Auto) इसका उपयोग स्वायत्त वाहनों को विकसित करने के लिए करता है। जब ये कंपनियां एक ही फाउंडेशन मॉडल पर काम करती हैं, तो तकनीक सभी के लिए तेजी से बेहतर होती है।
इस घोषणा के सबसे विघटनकारी हिस्सों में से एक 'न्यूरल सीन रिकंस्ट्रक्शन' और 'वीडियो ऑग्मेंटेशन' पर ध्यान केंद्रित करना है। अनिवार्य रूप से, ये उपकरण एक डेवलपर को गोदाम का एक एकल वीडियो लेने और उसे हजारों अलग-अलग परिदृश्यों में बदलने की अनुमति देते हैं। वे लाइटिंग बदल सकते हैं, बाधाएं जोड़ सकते हैं, या उपकरण की विफलता का अनुकरण कर सकते हैं।
यह मूर्त प्रगति है क्योंकि यह डेटा की बाधा को हल करती है। एक सेल्फ-ड्राइविंग कार को दुर्लभ बर्फीले तूफान को संभालने के लिए प्रशिक्षित करना बहुत आसान है यदि आप उस बर्फीले तूफान का उच्च-गुणवत्ता वाला, भौतिकी-सटीक सिमुलेशन तैयार कर सकते हैं। उपभोक्ता के लिए, यह उन उत्पादों की ओर ले जाता है जो अधिक लचीले और सुरक्षित हैं। इन कौशलों का उपयोग करने वाला एक डिलीवरी रोबोट फुटपाथ के गड्ढे या आवारा कुत्ते से भ्रमित होने की संभावना कम रखता है क्योंकि उसने अपने डिजिटल प्रशिक्षण में उन बाधाओं के हजारों रूपांतर देखे हैं।
अंततः, आप शायद कभी भी Cosmos 3 सॉफ्टवेयर को सीधे नहीं देख पाएंगे, लेकिन आप इसके प्रभावों का अनुभव करेंगे। यह तकनीक उपभोक्ता वस्तुओं और सेवाओं की अगली पीढ़ी के लिए एक आधारभूत परत है। बाजार के पक्ष में, यह बदलाव अधिक किफायती उत्पादों की ओर ले जा सकता है क्योंकि स्मार्ट कारखाने अधिक कुशल हो जाते हैं।
आपके लिए इसका क्या अर्थ है:
NVIDIA के संस्थापक जेन्सेन हुआंग ने इसे भौतिक AI का 'बिग बैंग' बताया है। हालांकि यह कॉर्पोरेट भाषा है, लेकिन अंतर्निहित बदलाव वास्तविक है। हम उस AI से दूर जा रहे हैं जो सिर्फ बात करता है और उस AI की ओर बढ़ रहे हैं जो काम करता है। Cosmos 3 सुपर की रिलीज उन अनुप्रयोगों के लिए उच्चतम स्तर की भौतिकी सटीकता प्रदान करती है जो त्रुटियों को बर्दाश्त नहीं कर सकते, जैसे कि भारी मशीनरी या स्वायत्त पारगमन।
उपभोक्ता के दृष्टिकोण से, हम एक ऐसी अवधि में प्रवेश कर रहे हैं जहाँ हमारे आस-पास की मशीनें प्रोग्राम किए गए टूल की तुलना में जागरूक सहायकों की तरह अधिक लगने लगेंगी। वे उस तरलता के साथ महसूस करेंगे, तर्क करेंगे और कार्य करेंगे जो कभी विज्ञान कथाओं तक सीमित थी। जैसे-जैसे ये मॉडल अधिक सामान्य होते जाएंगे, डिजिटल दुनिया और भौतिक दुनिया के बीच की बाधा कम होती जाएगी।
दुनिया को बदलने के लिए एक एकल क्रांतिकारी रोबोट की प्रतीक्षा करने के बजाय, हम एक सार्वभौमिक मस्तिष्क का आगमन देख रहे हैं जिसे कई अलग-अलग प्रकार की मशीनों में स्थापित किया जा सकता है। यह प्रणालीगत परिवर्तन संभवतः यह परिभाषित करेगा कि हम अपने घरों, अपने कार्यालयों और अपने शहरों में तकनीक के साथ कैसे बातचीत करते हैं। अगली बार जब आप सेल्फ-चेकआउट मशीन या स्वचालित डिलीवरी कार्ट देखें, तो गौर करें। ये उपकरण साधारण कंप्यूटरों से भौतिक AI एजेंटों में बदल रहे हैं जो वास्तव में उस दुनिया को समझते हैं जिसमें वे रहते हैं।
स्रोत: NVIDIA Corporate Newsroom, McKinsey Global Institute, Deloitte Industrial Outlook 2026.



हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।
/ एक नि: शुल्क खाता बनाएं