उद्योग समाचार

सामान्य-उद्देश्य युग का अंत: कैसे Taalas ने AI के भविष्य को हार्डवायर किया

Taalas ने एक हार्डवायर्ड Llama 3.1 8B चिप का खुलासा किया, जो 17,000 tps और 20 गुना कम लागत के साथ GPU को दरकिनार करती है। क्या Nvidia का साम्राज्य आखिरकार खतरे में है?
सामान्य-उद्देश्य युग का अंत: कैसे Taalas ने AI के भविष्य को हार्डवायर किया

पिछले एक दशक से, टेक जगत एक ही, महंगे अनुमान के तहत काम कर रहा है: AI के लिए विशाल, सामान्य-उद्देश्य वाले GPU और CUDA नामक एक जटिल सॉफ़्टवेयर स्टैक की आवश्यकता होती है। इस धारणा ने Nvidia को पृथ्वी पर सबसे मूल्यवान कंपनी बना दिया और एक 'कंप्यूट-ऋण' पैदा किया जिसे हर स्टार्टअप और उद्यम को चुकाना पड़ा।

19 फरवरी, 2026 को, वह धारणा समाप्त हो गई। कनाडाई स्टार्टअप Taalas ने वह कर दिखाने के लिए अपनी गोपनीयता (stealth) छोड़ी जिसे उद्योग में कई लोग असंभव समझते थे—या कम से कम दशकों दूर। उन्होंने केवल एक तेज़ चिप ही नहीं बनाई; उन्होंने एक ऐसी चिप बनाई जो स्वयं मॉडल है। Llama 3.1 8B मॉडल को सीधे सिलिकॉन की धातु परतों (metal layers) में हार्डवायर करके, Taalas ने एक ही झटके में मेमोरी वॉल, बिजली संकट और Nvidia टैक्स को प्रभावी ढंग से दरकिनार कर दिया है।

वॉन न्यूमैन बॉटलनेक का अंत (The Death of the Von Neumann Bottleneck)

यह क्यों महत्वपूर्ण है, इसे समझने के लिए हमें यह देखना होगा कि पारंपरिक चिप्स कैसे काम करते हैं। चाहे वह Intel CPU हो या Nvidia B200, वे सभी वॉन न्यूमैन आर्किटेक्चर का पालन करते हैं: निर्देश और डेटा मेमोरी (HBM) में संग्रहीत होते हैं और प्रोसेसर के पास आगे-पीछे भेजे जाते हैं। लार्ज लैंग्वेज मॉडल (LLMs) की दुनिया में, यह आवाजाही ही लेटेंसी (latency) और भारी बिजली खपत का प्राथमिक कारण है। हम इस बात से सीमित नहीं हैं कि हम कितनी तेज़ी से गणना कर सकते हैं; हम इस बात से सीमित हैं कि हम डेटा को कितनी तेज़ी से स्थानांतरित कर सकते हैं।

Taalas ने इस प्रतिमान को त्याग दिया है। चिप की ऊपरी धातु परतों में Llama 3.1 8B के वेट्स (weights) को एम्बेड करके, मॉडल अब मेमोरी से 'लोड' नहीं होता है। मॉडल ही सर्किट है। यह हाई बैंडविड्थ मेमोरी (HBM) की आवश्यकता को पूरी तरह से समाप्त कर देता है। निरंतर डेटा आवाजाही के बिना, बिजली की खपत काफी कम हो जाती है, और गति आसमान छू लेती है।

17,000 टोकन प्रति सेकंड: एक नई वास्तविकता

Taalas द्वारा जारी किए गए प्रदर्शन मेट्रिक्स चौंका देने वाले हैं। एक सिंगल 250W चिप—जिसे एक मानक एयर फैन से ठंडा किया जा सकता है—एक ही उपयोगकर्ता के लिए प्रति सेकंड 17,000 टोकन उत्पन्न कर रही है। इसे परिप्रेक्ष्य में रखने के लिए, एक टॉप-टियर GPU क्लस्टर अक्सर मेमोरी और सामान्य-उद्देश्य वाले कर्नेल के प्रबंधन के ओवरहेड के कारण व्यक्तिगत स्ट्रीम के लिए उस गति के एक अंश तक पहुँचने के लिए भी संघर्ष करता है।

चूंकि चिप एक विशिष्ट मॉडल के लिए विशेषीकृत है, इसलिए इसे सामान्य-उद्देश्य वाले प्रोसेसर की 'अतिरिक्त चर्बी' की आवश्यकता नहीं होती है। ग्राफिक्स रेंडरिंग या पुराने कंप्यूटेशन के लिए कोई अप्रयुक्त सर्किट नहीं हैं। डाई का हर वर्ग मिलीमीटर Llama 3.1 के इन्फरेंस (inference) के लिए समर्पित है।

विशेषता Nvidia B200 (सामान्य उद्देश्य) Taalas Llama-विशिष्ट चिप
मेमोरी प्रकार HBM3e (बाहरी) हार्डवायर्ड (आंतरिक धातु परतें)
कूलिंग लिक्विड कूलिंग की सिफारिश मानक एयर कूलिंग
थ्रूपुट उच्च (बैच पर निर्भर) 17,000 टोकन/सेकंड (एकल उपयोगकर्ता)
विनिर्माण लागत अत्यंत उच्च ~20 गुना कम
लचीलापन कोई भी मॉडल चलाता है Llama 3.1 8B के लिए हार्डवायर्ड

20 गुना लागत लाभ

Taalas की घोषणा का सबसे विघटनकारी पहलू गति नहीं है—बल्कि इसका अर्थशास्त्र है। HBM को हटाकर और आर्किटेक्चर को सरल बनाकर, Taalas एक तुलनीय GPU सेटअप की तुलना में 20 गुना कम विनिर्माण लागत का दावा करता है।

वर्षों तक, Nvidia की 'खाई' (moat) CUDA थी—वह सॉफ़्टवेयर परत जिसने डेवलपर्स के लिए AI कोड लिखना आसान बना दिया। लेकिन यदि मॉडल पहले से ही सिलिकॉन में बेक किया हुआ है, तो आपको CUDA की आवश्यकता नहीं है। आपको कंपाइलर की आवश्यकता नहीं है। आप बस चिप को इनपुट देते हैं और आउटपुट प्राप्त करते हैं। यह 'मॉडल-एज़-एन-अप्लायंस' दृष्टिकोण AI को एक उच्च-रखरखाव वाले सुपरकंप्यूटिंग कार्य से एक कमोडिटी हार्डवेयर घटक में बदल देता है।

मॉडल से सिलिकॉन तक 60 दिनों में

हार्डवायर्ड सिलिकॉन की स्पष्ट आलोचना इसकी कठोरता है। यदि आप आज Llama 3.1 को चिप में बेक करते हैं, तो कल Llama 4.0 आने पर क्या होगा?

Taalas ने अपनी स्वचालित 'मॉडल-टू-लिथोग्राफी' पाइपलाइन का खुलासा करके इसे संबोधित किया। उन्होंने एक तैयार मॉडल चेकपॉइंट से अंतिम टेप-आउट-रेडी डिज़ाइन तक के समय को घटाकर केवल दो महीने कर दिया है। हालांकि यह अभी भी Hugging Face से एक नई वेट फ़ाइल डाउनलोड करने की तुलना में धीमा है, लेकिन हाइपरस्केलर्स के लिए यह ट्रेड-ऑफ अपरिहार्य होता जा रहा है। यदि कोई कंपनी जानती है कि वे दिन में अरबों बार किसी मॉडल के विशिष्ट संस्करण को चलाने जा रहे हैं, तो हार्डवायर्ड चिप की दक्षता GPU के लचीलेपन से कहीं अधिक महत्वपूर्ण हो जाती है।

भू-राजनीतिक और औद्योगिक प्रभाव

यह बदलाव 'एम्बेडेड AI' युग की शुरुआत का प्रतीक है। हम विशाल, वाटर-कूल्ड डेटा केंद्रों में चलने वाले केंद्रीकृत 'गॉड-मॉडल' से हटकर विशेषीकृत, हाइपर-कुशल सिलिकॉन की ओर बढ़ रहे हैं जो कहीं भी रह सकता है।

कल्पना कीजिए कि एक स्वायत्त वाहन जिसमें हार्डवायर्ड विज़न मॉडल है जिसे शून्य बाहरी मेमोरी की आवश्यकता है, या एक स्मार्टफोन जो बैटरी खत्म किए बिना सुपरकंप्यूटर की गति के साथ स्थानीय LLM चलाता है। प्रवेश की लागत को 20 गुना कम करके, Taalas प्रभावी रूप से AI क्रांति की हार्डवेयर परत का लोकतंत्रीकरण कर रहा है।

AI उद्योग के लिए व्यावहारिक सुझाव

हार्डवायर्ड AI चिप्स का उदय हर टेक लीडर के लिए रोडमैप बदल देता है। यहाँ आपको क्या विचार करना चाहिए:

  • मॉडल स्थिरता का मूल्यांकन करें: यदि आपका व्यवसाय किसी विशिष्ट मॉडल (जैसे Llama 3.1) पर निर्भर है, तो सामान्य-उद्देश्य वाले GPU रेंटल के बजाय ASIC (एप्लिकेशन-स्पेसिफिक इंटीग्रेटेड सर्किट) समाधानों को देखने का समय आ गया है।
  • 'खाई' (Moat) पर पुनर्विचार करें: यदि हार्डवेयर एक कमोडिटी बन जाता है और CUDA अब द्वारपाल नहीं रहता है, तो आपका मूल्य मालिकाना डेटा और फाइन-ट्यूनिंग से आना चाहिए, न कि केवल कंप्यूट तक पहुंच से।
  • एज (Edge) के लिए तैयारी करें: बिजली में कमी (250W एयर-कूल्ड) का मतलब है कि उच्च-स्तरीय AI एज पर आ रहा है। ऑन-प्रिमाइसेस, हाई-स्पीड इन्फरेंस के लिए योजना बनाना शुरू करें जिसमें क्लाउड प्रदाता की आवश्यकता नहीं होती है।
  • 'फास्ट-फॉलोअर' मॉडल पर नज़र रखें: जैसे-जैसे 'मॉडल-टू-सिलिकॉन' पाइपलाइन सिकुड़ती है, एक नए मॉडल आर्किटेक्चर के लिए 'प्रथम' होने का लाभ हार्डवायर्ड चिप पर 'सबसे कुशल' होने के लाभ से कम हो सकता है।

Nvidia का साम्राज्य इस विचार पर बनाया गया था कि AI एक सॉफ़्टवेयर समस्या है जिसे लचीले हार्डवेयर द्वारा हल किया जाता है। Taalas ने अभी तर्क दिया है कि AI एक हार्डवेयर समस्या है जिसे अनम्य, पूर्ण सिलिकॉन द्वारा हल किया जाता है। यदि बाज़ार दक्षता का अनुसरण करता है, तो GPU राजा का युग समाप्त हो सकता है।

स्रोत (Sources)

  • Taalas Official Technical Briefing (February 2026)
  • Semiconductor Engineering: The Rise of Hardwired Neural Networks
  • Meta AI: Llama 3.1 Architecture and Implementation Standards
  • Journal of Applied Physics: Metal-Layer Logic and Memory Integration
bg
bg
bg

आप दूसरी तरफ देखिए।

हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।

/ एक नि: शुल्क खाता बनाएं