पिछले एक दशक से, टेक जगत एक ही, महंगे अनुमान के तहत काम कर रहा है: AI के लिए विशाल, सामान्य-उद्देश्य वाले GPU और CUDA नामक एक जटिल सॉफ़्टवेयर स्टैक की आवश्यकता होती है। इस धारणा ने Nvidia को पृथ्वी पर सबसे मूल्यवान कंपनी बना दिया और एक 'कंप्यूट-ऋण' पैदा किया जिसे हर स्टार्टअप और उद्यम को चुकाना पड़ा।
19 फरवरी, 2026 को, वह धारणा समाप्त हो गई। कनाडाई स्टार्टअप Taalas ने वह कर दिखाने के लिए अपनी गोपनीयता (stealth) छोड़ी जिसे उद्योग में कई लोग असंभव समझते थे—या कम से कम दशकों दूर। उन्होंने केवल एक तेज़ चिप ही नहीं बनाई; उन्होंने एक ऐसी चिप बनाई जो स्वयं मॉडल है। Llama 3.1 8B मॉडल को सीधे सिलिकॉन की धातु परतों (metal layers) में हार्डवायर करके, Taalas ने एक ही झटके में मेमोरी वॉल, बिजली संकट और Nvidia टैक्स को प्रभावी ढंग से दरकिनार कर दिया है।
यह क्यों महत्वपूर्ण है, इसे समझने के लिए हमें यह देखना होगा कि पारंपरिक चिप्स कैसे काम करते हैं। चाहे वह Intel CPU हो या Nvidia B200, वे सभी वॉन न्यूमैन आर्किटेक्चर का पालन करते हैं: निर्देश और डेटा मेमोरी (HBM) में संग्रहीत होते हैं और प्रोसेसर के पास आगे-पीछे भेजे जाते हैं। लार्ज लैंग्वेज मॉडल (LLMs) की दुनिया में, यह आवाजाही ही लेटेंसी (latency) और भारी बिजली खपत का प्राथमिक कारण है। हम इस बात से सीमित नहीं हैं कि हम कितनी तेज़ी से गणना कर सकते हैं; हम इस बात से सीमित हैं कि हम डेटा को कितनी तेज़ी से स्थानांतरित कर सकते हैं।
Taalas ने इस प्रतिमान को त्याग दिया है। चिप की ऊपरी धातु परतों में Llama 3.1 8B के वेट्स (weights) को एम्बेड करके, मॉडल अब मेमोरी से 'लोड' नहीं होता है। मॉडल ही सर्किट है। यह हाई बैंडविड्थ मेमोरी (HBM) की आवश्यकता को पूरी तरह से समाप्त कर देता है। निरंतर डेटा आवाजाही के बिना, बिजली की खपत काफी कम हो जाती है, और गति आसमान छू लेती है।
Taalas द्वारा जारी किए गए प्रदर्शन मेट्रिक्स चौंका देने वाले हैं। एक सिंगल 250W चिप—जिसे एक मानक एयर फैन से ठंडा किया जा सकता है—एक ही उपयोगकर्ता के लिए प्रति सेकंड 17,000 टोकन उत्पन्न कर रही है। इसे परिप्रेक्ष्य में रखने के लिए, एक टॉप-टियर GPU क्लस्टर अक्सर मेमोरी और सामान्य-उद्देश्य वाले कर्नेल के प्रबंधन के ओवरहेड के कारण व्यक्तिगत स्ट्रीम के लिए उस गति के एक अंश तक पहुँचने के लिए भी संघर्ष करता है।
चूंकि चिप एक विशिष्ट मॉडल के लिए विशेषीकृत है, इसलिए इसे सामान्य-उद्देश्य वाले प्रोसेसर की 'अतिरिक्त चर्बी' की आवश्यकता नहीं होती है। ग्राफिक्स रेंडरिंग या पुराने कंप्यूटेशन के लिए कोई अप्रयुक्त सर्किट नहीं हैं। डाई का हर वर्ग मिलीमीटर Llama 3.1 के इन्फरेंस (inference) के लिए समर्पित है।
| विशेषता | Nvidia B200 (सामान्य उद्देश्य) | Taalas Llama-विशिष्ट चिप |
|---|---|---|
| मेमोरी प्रकार | HBM3e (बाहरी) | हार्डवायर्ड (आंतरिक धातु परतें) |
| कूलिंग | लिक्विड कूलिंग की सिफारिश | मानक एयर कूलिंग |
| थ्रूपुट | उच्च (बैच पर निर्भर) | 17,000 टोकन/सेकंड (एकल उपयोगकर्ता) |
| विनिर्माण लागत | अत्यंत उच्च | ~20 गुना कम |
| लचीलापन | कोई भी मॉडल चलाता है | Llama 3.1 8B के लिए हार्डवायर्ड |
Taalas की घोषणा का सबसे विघटनकारी पहलू गति नहीं है—बल्कि इसका अर्थशास्त्र है। HBM को हटाकर और आर्किटेक्चर को सरल बनाकर, Taalas एक तुलनीय GPU सेटअप की तुलना में 20 गुना कम विनिर्माण लागत का दावा करता है।
वर्षों तक, Nvidia की 'खाई' (moat) CUDA थी—वह सॉफ़्टवेयर परत जिसने डेवलपर्स के लिए AI कोड लिखना आसान बना दिया। लेकिन यदि मॉडल पहले से ही सिलिकॉन में बेक किया हुआ है, तो आपको CUDA की आवश्यकता नहीं है। आपको कंपाइलर की आवश्यकता नहीं है। आप बस चिप को इनपुट देते हैं और आउटपुट प्राप्त करते हैं। यह 'मॉडल-एज़-एन-अप्लायंस' दृष्टिकोण AI को एक उच्च-रखरखाव वाले सुपरकंप्यूटिंग कार्य से एक कमोडिटी हार्डवेयर घटक में बदल देता है।
हार्डवायर्ड सिलिकॉन की स्पष्ट आलोचना इसकी कठोरता है। यदि आप आज Llama 3.1 को चिप में बेक करते हैं, तो कल Llama 4.0 आने पर क्या होगा?
Taalas ने अपनी स्वचालित 'मॉडल-टू-लिथोग्राफी' पाइपलाइन का खुलासा करके इसे संबोधित किया। उन्होंने एक तैयार मॉडल चेकपॉइंट से अंतिम टेप-आउट-रेडी डिज़ाइन तक के समय को घटाकर केवल दो महीने कर दिया है। हालांकि यह अभी भी Hugging Face से एक नई वेट फ़ाइल डाउनलोड करने की तुलना में धीमा है, लेकिन हाइपरस्केलर्स के लिए यह ट्रेड-ऑफ अपरिहार्य होता जा रहा है। यदि कोई कंपनी जानती है कि वे दिन में अरबों बार किसी मॉडल के विशिष्ट संस्करण को चलाने जा रहे हैं, तो हार्डवायर्ड चिप की दक्षता GPU के लचीलेपन से कहीं अधिक महत्वपूर्ण हो जाती है।
यह बदलाव 'एम्बेडेड AI' युग की शुरुआत का प्रतीक है। हम विशाल, वाटर-कूल्ड डेटा केंद्रों में चलने वाले केंद्रीकृत 'गॉड-मॉडल' से हटकर विशेषीकृत, हाइपर-कुशल सिलिकॉन की ओर बढ़ रहे हैं जो कहीं भी रह सकता है।
कल्पना कीजिए कि एक स्वायत्त वाहन जिसमें हार्डवायर्ड विज़न मॉडल है जिसे शून्य बाहरी मेमोरी की आवश्यकता है, या एक स्मार्टफोन जो बैटरी खत्म किए बिना सुपरकंप्यूटर की गति के साथ स्थानीय LLM चलाता है। प्रवेश की लागत को 20 गुना कम करके, Taalas प्रभावी रूप से AI क्रांति की हार्डवेयर परत का लोकतंत्रीकरण कर रहा है।
हार्डवायर्ड AI चिप्स का उदय हर टेक लीडर के लिए रोडमैप बदल देता है। यहाँ आपको क्या विचार करना चाहिए:
Nvidia का साम्राज्य इस विचार पर बनाया गया था कि AI एक सॉफ़्टवेयर समस्या है जिसे लचीले हार्डवेयर द्वारा हल किया जाता है। Taalas ने अभी तर्क दिया है कि AI एक हार्डवेयर समस्या है जिसे अनम्य, पूर्ण सिलिकॉन द्वारा हल किया जाता है। यदि बाज़ार दक्षता का अनुसरण करता है, तो GPU राजा का युग समाप्त हो सकता है।



हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।
/ एक नि: शुल्क खाता बनाएं