दुनिया का सबसे तेज़ AI कस्टम हार्डवेयर के बजाय मानक चिप्स पर क्यों चलता है

शाओमी (Xiaomi) का MiMo-V2.5-Pro-UltraSpeed मानक GPU पर 1,000 टोकन प्रति सेकंड की गति तक पहुँच गया है, जो सॉफ्टवेयर नवाचार के माध्यम से ChatGPT और Claude को 15 गुना पीछे छोड़ देता है।

Martin Clauss

वरिष्ठ प्रौद्योगिकी संवाददाता

10 जून 2026

दुनिया का सबसे तेज़ AI कस्टम हार्डवेयर के बजाय मानक चिप्स पर क्यों चलता है

टेक इंडस्ट्री ने पिछले दो साल इस विश्वास में बिताए कि एआई को तेज़ बनाने का एकमात्र तरीका कंप्यूटर चिप का पुनराविष्कार करना था। ग्रोक (Groq) और सेरेब्रास (Cerebras) जैसे स्टार्टअप्स ने बड़े पैमाने पर विशेष हार्डवेयर बनाने के लिए अरबों डॉलर जुटाए, जिसे चैटजीपीटी (ChatGPT) जैसे मॉडल को धीमा करने वाली डेटा बाधाओं को हल करने के लिए डिज़ाइन किया गया था। तर्क सरल था: एनवीडिया (Nvidia) के मानक ग्राफिक्स चिप्स एआई ट्रेनिंग के लिए तो ठीक थे, लेकिन वास्तविक दुनिया में आवश्यक त्वरित प्रतिक्रियाओं के लिए वे बहुत धीमे थे। इस धारणा ने कस्टम सिलिकॉन की तलाश को एक डिजिटल गोल्ड रश में बदल दिया।

शाओमी (Xiaomi) ने अभी साबित किया है कि वह सिद्धांत गलत है। सोमवार सुबह, चीनी इलेक्ट्रॉनिक्स दिग्गज ने अपने प्रमुख मॉडल, MiMo-V2.5-Pro-UltraSpeed के लिए एक नया सर्विंग मोड जारी किया। इसने केवल स्पीड रिकॉर्ड ही नहीं तोड़ा, बल्कि मानक, ऑफ-द-शेल्फ हार्डवेयर पर जो हम संभव समझते थे, उस सीमा को भी पार कर दिया। सिस्टम एक ट्रिलियन-पैरामीटर मॉडल पर 1,200 टोकन प्रति सेकंड की गति तक पहुँच गया। संदर्भ के लिए, एक टोकन लगभग एक शब्द का तीन-चौथाई होता है। इसका मतलब है कि मॉडल हर एक सेकंड में लगभग 900 शब्द उत्पन्न करता है।

व्यापक परिप्रेक्ष्य में देखें तो, यह आज अधिकांश लोगों द्वारा उपयोग किए जाने वाले GPT और Claude के संस्करणों की तुलना में 15 गुना तेज़ है। शाओमी ने यह एक मानक 8-GPU नोड का उपयोग करके किया—वही हार्डवेयर जिसे आप किसी भी प्रमुख क्लाउड प्रदाता से किराए पर ले सकते हैं। यह विकास बताता है कि एआई गति की अगली पीढ़ी का रहस्य चिप्स के लिए बेहतर फैक्ट्री नहीं है, बल्कि हमारे पास पहले से मौजूद चिप्स का उपयोग करने का एक स्मार्ट तरीका है।

आंकड़ों में गति का अंतर

यह क्यों महत्वपूर्ण है, इसे समझने के लिए हमें यह देखना होगा कि मनुष्य एआई की गति का अनुभव कैसे करते हैं। जब आप ChatGPT या Claude से कोई प्रश्न पूछते हैं, तो टेक्स्ट आमतौर पर एक तेज़ टाइपिस्ट की गति से दिखाई देता है। वह लगभग 60 से 80 टोकन प्रति सेकंड है। हालांकि यह एक प्रतिक्रिया पढ़ने वाले व्यक्ति को तेज़ लगता है, लेकिन जटिल औद्योगिक कार्यों के लिए यह बहुत धीमा है। हाई-स्पीड एआई रीयल-टाइम अनुवाद, बैंकिंग में तत्काल धोखाधड़ी का पता लगाने और स्वायत्त एजेंटों जैसी चीजों के लिए अदृश्य रीढ़ है, जिन्हें प्रति मिनट हजारों निर्णय लेने होते हैं।

ऐतिहासिक रूप से, सबसे तेज़ गति कस्टम हार्डवेयर से आती थी। सेरेब्रास ने मेटा मॉडल पर लगभग 1,000 टोकन प्रति सेकंड तक पहुँचकर सुर्खियाँ बटोरीं, लेकिन उसके लिए डिनर प्लेट के आकार की चिप की आवश्यकता थी। शाओमी उसी सीमा तक पहुँचा—और फिर उसे पार कर गया—एक ऐसे मॉडल पर जो आकार में दोगुने से भी अधिक है।

मॉडल	टोकन प्रति सेकंड	हार्डवेयर का प्रकार
MiMo-V2.5-Pro-UltraSpeed	1,200	मानक GPUs
Gemini Flash	192	गूगल TPU (कस्टम)
Claude Haiku	98	मानक क्लाउड GPUs
Claude Opus 4.6	71	मानक क्लाउड GPUs
GPT-5.5	68	मानक क्लाउड GPUs

कैसे सॉफ्टवेयर ट्रिक्स ने हार्डवेयर की सीमाओं को मात दी

हुड के नीचे, शाओमी ने मॉडल की विशेषज्ञ परतों (expert layers) पर FP4 क्वांटाइजेशन (quantization) नामक तकनीक का उपयोग किया। इसे सरल शब्दों में समझाने के लिए, कल्पना करें कि एक ट्रिलियन मापदंडों वाला मॉडल एक विशाल पुस्तकालय है। आमतौर पर, कंप्यूटर को आपको उत्तर देने के लिए हर किताब का हर शब्द पढ़ना पड़ता है। इसमें बहुत अधिक मेमोरी और समय लगता है। क्वांटाइजेशन उन किताबों को सिकोड़ने का एक तरीका है ताकि वे कम जगह लें।

कई कंपनियाँ पूरे पुस्तकालय को सिकोड़ने की कोशिश करती हैं, लेकिन यह अक्सर एआई को कम बुद्धिमान और त्रुटियों के प्रति अधिक संवेदनशील बना देता है। शाओमी ने सर्जिकल दृष्टिकोण अपनाया। उन्होंने मॉडल के मुख्य तर्क (core logic) को उच्च रिज़ॉल्यूशन पर रखा लेकिन विशेष विशेषज्ञ परतों—पुस्तकालय के विशिष्ट विभागों—को 4-बिट परिशुद्धता तक संकुचित कर दिया। इससे चिप को जितना डेटा स्थानांतरित करना था, वह आधा हो गया। परिणाम एक ऐसा मॉडल है जो अपनी उच्च बुद्धिमत्ता (IQ) को बनाए रखता है और कंप्यूटर की मेमोरी के माध्यम से दोगुनी गति से चलता है।

एक दूसरी ट्रिक भी है जिसे DFlash स्पेक्युलेटिव डिकोडिंग (speculative decoding) कहा जाता है। एक सामान्य एआई बातचीत में, मॉडल एक लेखक की तरह होता है जिसे टाइप करने से पहले हर एक अक्षर के बारे में सोचना पड़ता है। स्पेक्युलेटिव डिकोडिंग एक अथक इंटर्न का परिचय देता है जो अगले कुछ शब्दों का अनुमान लगाने की कोशिश करता है। यदि इंटर्न सही है, तो मॉडल एक साथ टेक्स्ट के पूरे ब्लॉक को स्वीकार कर लेता है। यदि इंटर्न गलत है, तो मॉडल उसे ठीक करता है। शाओमी का DFlash इतना कुशल है कि यह एक बार में आठ टोकन का प्रस्ताव देता है और आमतौर पर उनमें से छह सही होते हैं। यह मॉडल को एक-एक शब्द रेंगने के बजाय बड़े टुकड़ों में आगे बढ़ने की अनुमति देता है।

TileRT इंजन और अंतरालों का अंत

सॉफ्टवेयर दक्षता अक्सर एक प्रक्रिया में खाली स्थानों को हटाने के बारे में होती है। शाओमी ने अपने मॉडल को TileRT नामक एक नए इन्फरेंस इंजन के साथ जोड़ा। अधिकांश एआई सिस्टम में, हर बार जब सॉफ्टवेयर हार्डवेयर को नई गणना करने के लिए कहता है, तो एक छोटी देरी होती है। ये अंतराल माइक्रोसेकंड में मापे जाते हैं, लेकिन जब आप अरबों गणनाएँ कर रहे होते हैं तो वे जुड़ जाते हैं।

TileRT पूरी गणना प्रक्रिया को हर समय GPU मेमोरी के अंदर रखता है। यह पारंपरिक एआई प्रोसेसिंग की "स्टार्ट और स्टॉप" प्रकृति को समाप्त करता है। यह सुव्यवस्थित दृष्टिकोण सुनिश्चित करता है कि ग्राफिक्स चिप्स कभी भी बेकार नहीं बैठे हैं, अगले निर्देश की प्रतीक्षा नहीं कर रहे हैं। संकुचित डेटा, भाग्यशाली अनुमान और एक अंतराल रहित पाइपलाइन का यह संयोजन ही एक मानक सर्वर को कई मिलियन डॉलर के कस्टम सुपरकंप्यूटर की तरह प्रदर्शन करने की अनुमति देता है।

आपकी दैनिक तकनीक के लिए इसका क्या अर्थ है

औसत उपयोगकर्ता के लिए, ये गति रिकॉर्ड अमूर्त कॉर्पोरेट प्रतिस्पर्धा की तरह लग सकते हैं। हालांकि, उपभोक्ता तकनीक पर प्रभाव वास्तविक है। जब एआई इतना तेज़ होता है, तो यह एक चैटबॉट से बदलकर, जिससे आप बात करते हैं, एक ऐसे उपकरण में बदल जाता है जो पृष्ठभूमि में आपके लिए काम करता है।

एक रीयल-टाइम भाषा अनुवाद ऐप पर विचार करें। वर्तमान गति में अक्सर ध्यान देने योग्य अंतराल होता है जो प्राकृतिक बातचीत को कठिन बनाता है। 1,000 टोकन प्रति सेकंड पर, एक एआई एक पूरा वाक्य सुन सकता है, उसे तीन अलग-अलग भाषाओं में अनुवाद कर सकता है, और आपके पलक झपकने से भी कम समय में तीनों के व्याकरण की जांच कर सकता है। यह सीमा पार व्यापार बैठकों या यात्रा में अजीब ठहराव को समाप्त करता है।

बाजार के पक्ष में, यह एआई की लागत के लिए एक विघटनकारी कदम है। शाओमी इस UltraSpeed परीक्षण की कीमत अपनी मानक दर से तीन गुना अधिक रख रहा है, लेकिन वे दस गुना अधिक आउटपुट प्रदान कर रहे हैं। नए ऐप बनाने वाले डेवलपर्स के लिए, इसका मतलब है कि वे क्लाउड कंप्यूटिंग पर खर्च किए जाने वाले प्रत्येक डॉलर के लिए बहुत अधिक काम कर सकते हैं। डेवलपर्स के लिए कम लागत आमतौर पर अंतिम उपयोगकर्ता के लिए सस्ते या अधिक सक्षम ऐप्स की ओर ले जाती है।

व्यावहारिक दूरदर्शिता

शाओमी की सफलता बताती है कि पिछले कुछ वर्षों की हार्डवेयर कमी वास्तव में सॉफ्टवेयर की समस्या हो सकती थी। जैसे-जैसे कंपनियों को एहसास होता है कि वे बेहतर कोडिंग के माध्यम से बड़े पैमाने पर प्रदर्शन लाभ प्राप्त कर सकते हैं, सबसे महंगे, विशेष चिप्स खरीदने का दबाव कम होने लग सकता है। हम एक ऐसे दौर की ओर बढ़ रहे हैं जहाँ गणित की दक्षता सिलिकॉन की शक्ति जितनी ही महत्वपूर्ण होगी।

आपको इस साल के अंत तक अपने उपकरणों पर रीयल-टाइम एआई सुविधाओं की एक लहर देखने की उम्मीद करनी चाहिए। ये केवल तेज़ चैटबॉट नहीं होंगे। ऐसी सुविधाओं की तलाश करें जिनमें एआई को एक साथ दर्जनों संभावनाओं के बारे में सोचने की आवश्यकता होती है, जैसे कि उन्नत कोडिंग सहायक जो सेकंडों में पूरे प्रोग्राम लिखते हैं या गेमिंग पात्र जो बिना स्क्रिप्ट के तत्काल बातचीत करते हैं। बाधा अब यह नहीं है कि कंप्यूटर कितनी तेज़ी से सोच सकता है। बाधा यह है कि हम उसे कितनी तेज़ी से कुछ उपयोगी काम दे सकते हैं।

स्रोत:
Xiaomi MiMo Developer Documentation (April 2026)
Artificial Analysis LLM Leaderboard (June 2026)
TileRT Technical Whitepaper (May 2026)
Cerebras and Groq Performance Benchmarks (2025)

#एआईइन्फरेंस #जीपीयूकंप्यूटिंग #तकनीकीविश्लेषण #मशीनलर्निंग #शाओमीमीमो

आप दूसरी तरफ देखिए।

हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।

/ एक नि: शुल्क खाता बनाएं

कस्टम डोमेन

1 TB तक संग्रहण

उन्नत साझाकरण

एंड-टू-एंड एन्क्रिप्शन

स्वयं नष्ट होने वाले ईमेल

कस्टम डोमेन

1 TB तक संग्रहण

उन्नत साझाकरण

एंड-टू-एंड एन्क्रिप्शन

स्वयं नष्ट होने वाले ईमेल

Beeble Mail

Beeble Drive

के बारे में Beeble

उद्देश्य

इतिहास

अधिमूल्य

सामान्य प्रश्न

दान करें

हमसे संपर्क करें