टेक इंडस्ट्री ने पिछले दो साल इस विश्वास में बिताए कि एआई को तेज़ बनाने का एकमात्र तरीका कंप्यूटर चिप का पुनराविष्कार करना था। ग्रोक (Groq) और सेरेब्रास (Cerebras) जैसे स्टार्टअप्स ने बड़े पैमाने पर विशेष हार्डवेयर बनाने के लिए अरबों डॉलर जुटाए, जिसे चैटजीपीटी (ChatGPT) जैसे मॉडल को धीमा करने वाली डेटा बाधाओं को हल करने के लिए डिज़ाइन किया गया था। तर्क सरल था: एनवीडिया (Nvidia) के मानक ग्राफिक्स चिप्स एआई ट्रेनिंग के लिए तो ठीक थे, लेकिन वास्तविक दुनिया में आवश्यक त्वरित प्रतिक्रियाओं के लिए वे बहुत धीमे थे। इस धारणा ने कस्टम सिलिकॉन की तलाश को एक डिजिटल गोल्ड रश में बदल दिया।
शाओमी (Xiaomi) ने अभी साबित किया है कि वह सिद्धांत गलत है। सोमवार सुबह, चीनी इलेक्ट्रॉनिक्स दिग्गज ने अपने प्रमुख मॉडल, MiMo-V2.5-Pro-UltraSpeed के लिए एक नया सर्विंग मोड जारी किया। इसने केवल स्पीड रिकॉर्ड ही नहीं तोड़ा, बल्कि मानक, ऑफ-द-शेल्फ हार्डवेयर पर जो हम संभव समझते थे, उस सीमा को भी पार कर दिया। सिस्टम एक ट्रिलियन-पैरामीटर मॉडल पर 1,200 टोकन प्रति सेकंड की गति तक पहुँच गया। संदर्भ के लिए, एक टोकन लगभग एक शब्द का तीन-चौथाई होता है। इसका मतलब है कि मॉडल हर एक सेकंड में लगभग 900 शब्द उत्पन्न करता है।
व्यापक परिप्रेक्ष्य में देखें तो, यह आज अधिकांश लोगों द्वारा उपयोग किए जाने वाले GPT और Claude के संस्करणों की तुलना में 15 गुना तेज़ है। शाओमी ने यह एक मानक 8-GPU नोड का उपयोग करके किया—वही हार्डवेयर जिसे आप किसी भी प्रमुख क्लाउड प्रदाता से किराए पर ले सकते हैं। यह विकास बताता है कि एआई गति की अगली पीढ़ी का रहस्य चिप्स के लिए बेहतर फैक्ट्री नहीं है, बल्कि हमारे पास पहले से मौजूद चिप्स का उपयोग करने का एक स्मार्ट तरीका है।
यह क्यों महत्वपूर्ण है, इसे समझने के लिए हमें यह देखना होगा कि मनुष्य एआई की गति का अनुभव कैसे करते हैं। जब आप ChatGPT या Claude से कोई प्रश्न पूछते हैं, तो टेक्स्ट आमतौर पर एक तेज़ टाइपिस्ट की गति से दिखाई देता है। वह लगभग 60 से 80 टोकन प्रति सेकंड है। हालांकि यह एक प्रतिक्रिया पढ़ने वाले व्यक्ति को तेज़ लगता है, लेकिन जटिल औद्योगिक कार्यों के लिए यह बहुत धीमा है। हाई-स्पीड एआई रीयल-टाइम अनुवाद, बैंकिंग में तत्काल धोखाधड़ी का पता लगाने और स्वायत्त एजेंटों जैसी चीजों के लिए अदृश्य रीढ़ है, जिन्हें प्रति मिनट हजारों निर्णय लेने होते हैं।
ऐतिहासिक रूप से, सबसे तेज़ गति कस्टम हार्डवेयर से आती थी। सेरेब्रास ने मेटा मॉडल पर लगभग 1,000 टोकन प्रति सेकंड तक पहुँचकर सुर्खियाँ बटोरीं, लेकिन उसके लिए डिनर प्लेट के आकार की चिप की आवश्यकता थी। शाओमी उसी सीमा तक पहुँचा—और फिर उसे पार कर गया—एक ऐसे मॉडल पर जो आकार में दोगुने से भी अधिक है।
| मॉडल | टोकन प्रति सेकंड | हार्डवेयर का प्रकार |
|---|---|---|
| MiMo-V2.5-Pro-UltraSpeed | 1,200 | मानक GPUs |
| Gemini Flash | 192 | गूगल TPU (कस्टम) |
| Claude Haiku | 98 | मानक क्लाउड GPUs |
| Claude Opus 4.6 | 71 | मानक क्लाउड GPUs |
| GPT-5.5 | 68 | मानक क्लाउड GPUs |
हुड के नीचे, शाओमी ने मॉडल की विशेषज्ञ परतों (expert layers) पर FP4 क्वांटाइजेशन (quantization) नामक तकनीक का उपयोग किया। इसे सरल शब्दों में समझाने के लिए, कल्पना करें कि एक ट्रिलियन मापदंडों वाला मॉडल एक विशाल पुस्तकालय है। आमतौर पर, कंप्यूटर को आपको उत्तर देने के लिए हर किताब का हर शब्द पढ़ना पड़ता है। इसमें बहुत अधिक मेमोरी और समय लगता है। क्वांटाइजेशन उन किताबों को सिकोड़ने का एक तरीका है ताकि वे कम जगह लें।
कई कंपनियाँ पूरे पुस्तकालय को सिकोड़ने की कोशिश करती हैं, लेकिन यह अक्सर एआई को कम बुद्धिमान और त्रुटियों के प्रति अधिक संवेदनशील बना देता है। शाओमी ने सर्जिकल दृष्टिकोण अपनाया। उन्होंने मॉडल के मुख्य तर्क (core logic) को उच्च रिज़ॉल्यूशन पर रखा लेकिन विशेष विशेषज्ञ परतों—पुस्तकालय के विशिष्ट विभागों—को 4-बिट परिशुद्धता तक संकुचित कर दिया। इससे चिप को जितना डेटा स्थानांतरित करना था, वह आधा हो गया। परिणाम एक ऐसा मॉडल है जो अपनी उच्च बुद्धिमत्ता (IQ) को बनाए रखता है और कंप्यूटर की मेमोरी के माध्यम से दोगुनी गति से चलता है।
एक दूसरी ट्रिक भी है जिसे DFlash स्पेक्युलेटिव डिकोडिंग (speculative decoding) कहा जाता है। एक सामान्य एआई बातचीत में, मॉडल एक लेखक की तरह होता है जिसे टाइप करने से पहले हर एक अक्षर के बारे में सोचना पड़ता है। स्पेक्युलेटिव डिकोडिंग एक अथक इंटर्न का परिचय देता है जो अगले कुछ शब्दों का अनुमान लगाने की कोशिश करता है। यदि इंटर्न सही है, तो मॉडल एक साथ टेक्स्ट के पूरे ब्लॉक को स्वीकार कर लेता है। यदि इंटर्न गलत है, तो मॉडल उसे ठीक करता है। शाओमी का DFlash इतना कुशल है कि यह एक बार में आठ टोकन का प्रस्ताव देता है और आमतौर पर उनमें से छह सही होते हैं। यह मॉडल को एक-एक शब्द रेंगने के बजाय बड़े टुकड़ों में आगे बढ़ने की अनुमति देता है।
सॉफ्टवेयर दक्षता अक्सर एक प्रक्रिया में खाली स्थानों को हटाने के बारे में होती है। शाओमी ने अपने मॉडल को TileRT नामक एक नए इन्फरेंस इंजन के साथ जोड़ा। अधिकांश एआई सिस्टम में, हर बार जब सॉफ्टवेयर हार्डवेयर को नई गणना करने के लिए कहता है, तो एक छोटी देरी होती है। ये अंतराल माइक्रोसेकंड में मापे जाते हैं, लेकिन जब आप अरबों गणनाएँ कर रहे होते हैं तो वे जुड़ जाते हैं।
TileRT पूरी गणना प्रक्रिया को हर समय GPU मेमोरी के अंदर रखता है। यह पारंपरिक एआई प्रोसेसिंग की "स्टार्ट और स्टॉप" प्रकृति को समाप्त करता है। यह सुव्यवस्थित दृष्टिकोण सुनिश्चित करता है कि ग्राफिक्स चिप्स कभी भी बेकार नहीं बैठे हैं, अगले निर्देश की प्रतीक्षा नहीं कर रहे हैं। संकुचित डेटा, भाग्यशाली अनुमान और एक अंतराल रहित पाइपलाइन का यह संयोजन ही एक मानक सर्वर को कई मिलियन डॉलर के कस्टम सुपरकंप्यूटर की तरह प्रदर्शन करने की अनुमति देता है।
औसत उपयोगकर्ता के लिए, ये गति रिकॉर्ड अमूर्त कॉर्पोरेट प्रतिस्पर्धा की तरह लग सकते हैं। हालांकि, उपभोक्ता तकनीक पर प्रभाव वास्तविक है। जब एआई इतना तेज़ होता है, तो यह एक चैटबॉट से बदलकर, जिससे आप बात करते हैं, एक ऐसे उपकरण में बदल जाता है जो पृष्ठभूमि में आपके लिए काम करता है।
एक रीयल-टाइम भाषा अनुवाद ऐप पर विचार करें। वर्तमान गति में अक्सर ध्यान देने योग्य अंतराल होता है जो प्राकृतिक बातचीत को कठिन बनाता है। 1,000 टोकन प्रति सेकंड पर, एक एआई एक पूरा वाक्य सुन सकता है, उसे तीन अलग-अलग भाषाओं में अनुवाद कर सकता है, और आपके पलक झपकने से भी कम समय में तीनों के व्याकरण की जांच कर सकता है। यह सीमा पार व्यापार बैठकों या यात्रा में अजीब ठहराव को समाप्त करता है।
बाजार के पक्ष में, यह एआई की लागत के लिए एक विघटनकारी कदम है। शाओमी इस UltraSpeed परीक्षण की कीमत अपनी मानक दर से तीन गुना अधिक रख रहा है, लेकिन वे दस गुना अधिक आउटपुट प्रदान कर रहे हैं। नए ऐप बनाने वाले डेवलपर्स के लिए, इसका मतलब है कि वे क्लाउड कंप्यूटिंग पर खर्च किए जाने वाले प्रत्येक डॉलर के लिए बहुत अधिक काम कर सकते हैं। डेवलपर्स के लिए कम लागत आमतौर पर अंतिम उपयोगकर्ता के लिए सस्ते या अधिक सक्षम ऐप्स की ओर ले जाती है।
शाओमी की सफलता बताती है कि पिछले कुछ वर्षों की हार्डवेयर कमी वास्तव में सॉफ्टवेयर की समस्या हो सकती थी। जैसे-जैसे कंपनियों को एहसास होता है कि वे बेहतर कोडिंग के माध्यम से बड़े पैमाने पर प्रदर्शन लाभ प्राप्त कर सकते हैं, सबसे महंगे, विशेष चिप्स खरीदने का दबाव कम होने लग सकता है। हम एक ऐसे दौर की ओर बढ़ रहे हैं जहाँ गणित की दक्षता सिलिकॉन की शक्ति जितनी ही महत्वपूर्ण होगी।
आपको इस साल के अंत तक अपने उपकरणों पर रीयल-टाइम एआई सुविधाओं की एक लहर देखने की उम्मीद करनी चाहिए। ये केवल तेज़ चैटबॉट नहीं होंगे। ऐसी सुविधाओं की तलाश करें जिनमें एआई को एक साथ दर्जनों संभावनाओं के बारे में सोचने की आवश्यकता होती है, जैसे कि उन्नत कोडिंग सहायक जो सेकंडों में पूरे प्रोग्राम लिखते हैं या गेमिंग पात्र जो बिना स्क्रिप्ट के तत्काल बातचीत करते हैं। बाधा अब यह नहीं है कि कंप्यूटर कितनी तेज़ी से सोच सकता है। बाधा यह है कि हम उसे कितनी तेज़ी से कुछ उपयोगी काम दे सकते हैं।
स्रोत:
Xiaomi MiMo Developer Documentation (April 2026)
Artificial Analysis LLM Leaderboard (June 2026)
TileRT Technical Whitepaper (May 2026)
Cerebras and Groq Performance Benchmarks (2025)



हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।
/ एक नि: शुल्क खाता बनाएं