क्या आपने कभी सोचा है कि आपका पसंदीदा एआई चैटबॉट अपनी सुध-बुध खोने लगता है—या कम से कम उसकी गति धीमी हो जाती है—जितनी देर आपकी बातचीत चलती है? यह एक ऐसी निराशा है जिसे मैंने बाली में एक धूप से भरे को-वर्किंग स्पेस में बैठकर प्रत्यक्ष रूप से महसूस किया है, जहाँ मैं एक प्रोजेक्ट के लिए एक सप्ताह के इंटरव्यू ट्रांसक्रिप्ट्स को सारांशित करने की कोशिश कर रहा था कि कैसे डिजिटल नोमैडिज्म स्थानीय अर्थव्यवस्थाओं को नया आकार दे रहा है। जैसे-जैसे चैट हिस्ट्री बढ़ती गई, रिस्पॉन्स टाइम कम होता गया, और मेरे लैपटॉप के पंखे टेकऑफ़ के लिए तैयार जेट इंजन की तरह आवाज़ करने लगे। यह सिर्फ एक छोटी सी झुंझलाहट नहीं है; यह 'मेमोरी वॉल' का एक लक्षण है जो वर्तमान में पूरे एआई इकोसिस्टम की स्केलेबिलिटी के लिए खतरा बना हुआ है।
गूगल के शोधकर्ताओं ने शायद उस दीवार को तोड़ने के लिए आवश्यक स्लेजहैमर (बड़ा हथौड़ा) ढूंढ लिया है। तीन कम्प्रेशन एल्गोरिदम—टर्बोक्वांट (TurboQuant), पोलरक्वांट (PolarQuant), और क्वांटाइज्ड जॉनसन-लिंडेनस्ट्रॉस (QJL)—की शुरुआत के साथ, गूगल एक प्रतिमान-बदलने वाली सफलता का दावा कर रहा है: सटीकता में बिना किसी मापने योग्य हानि के लार्ज लैंग्वेज मॉडल्स (LLMs) के मेमोरी फुटप्रिंट को छह गुना तक कम करने की क्षमता। यदि ये दावे वास्तविक दुनिया के परिनियोजन की कठोरता के तहत टिके रहते हैं, तो हम एक ऐसे भविष्य की ओर देख रहे हैं जहाँ परिष्कृत एआई न केवल विशाल डेटा केंद्रों में रहेगा, बल्कि आपकी जेब में मौजूद स्मार्टफोन पर भी फलेगा-फूलेगा।
यह क्यों महत्वपूर्ण है, इसे समझने के लिए हमें इसके हुड के नीचे देखना होगा कि LLMs वास्तव में चीजों को कैसे 'याद' रखते हैं। जब आप किसी मॉडल के साथ इंटरैक्ट करते हैं, तो वह 'की-वैल्यू (KV) कैश' नामक चीज़ का उपयोग करता है। इस कैश को मॉडल की अल्पकालिक कार्यशील मेमोरी (short-term working memory) के रूप में सोचें। आपकी बातचीत का हर शब्द यहाँ संग्रहीत किया जाता है ताकि एआई संदर्भ (context) बनाए रख सके।
व्यवहार में, यह डेटा एक जलाशय को भरने वाले पानी की तरह है; बातचीत जितनी लंबी होगी, जल स्तर उतना ही ऊंचा उठेगा। अंततः, जलाशय भर जाता है, या सिस्टम को वॉल्यूम प्रबंधित करने में इतनी ऊर्जा खर्च करनी पड़ती है कि प्रदर्शन रेंगने लगता है। यही मुख्य कारण है कि लॉन्ग-कॉन्टेक्स्ट विंडोज़—एक एआई के लिए पूरी किताब या एक विशाल कोडबेस को याद रखने की क्षमता—इतनी महंगी और हार्डवेयर-गहन होती है। इस वजह से, सबसे नवीन एआई कंपनियां भी संदर्भ की लंबाई और हार्डवेयर लागत के बीच एक अनिश्चित संतुलन बनाने के लिए मजबूर रही हैं।
गूगल का समाधान केवल डेटा को कसकर पैक करने की कोशिश नहीं करता है; यह मौलिक रूप से बदल देता है कि डेटा कैसे आकार लेता है। यहाँ सबसे उत्कृष्ट प्रदर्शन पोलरक्वांट (PolarQuant) का है। इसे सरलता से समझाने के लिए, सूटकेस में नुकीले, अनियमित आकार के पत्थरों को भरने की कल्पना करें। आप बहुत सारी खाली जगह बर्बाद कर देंगे। पोलरक्वांट अनिवार्य रूप से इन डेटा वेक्टर्स—शब्दों और अवधारणाओं के गणितीय प्रतिनिधित्व—को उनकी ज्यामिति को सरल बनाने के लिए 'घुमाता' (rotate) है।
रैंडम रोटेशन लागू करके, एल्गोरिदम डेटा को अधिक समान और 'गोलाकार' बनाता है। मजे की बात यह है कि इससे मानक, उच्च-गुणवत्ता वाले क्वांटाइज़र को लागू करना बहुत आसान हो जाता है। अनिवार्य रूप से, यह उन नुकीले पत्थरों को चिकने कंचों में बदल देता है जो सूटकेस के हर कोने को भरते हुए अपनी जगह पर आसानी से लुढ़क जाते हैं। यह अभिनव दृष्टिकोण अत्यधिक कम्प्रेशन की अनुमति देता है—प्रति मान 2 या 3 बिट्स तक—जबकि मूल 16-बिट मॉडल के सूक्ष्म प्रदर्शन को बनाए रखता है।
इस बीच, क्वांटाइज्ड जॉनसन-लिंडेनस्ट्रॉस (QJL) विधि उच्च-आयामी डेटा को निम्न-आयामी स्थान में प्रोजेक्ट करने के लिए एक मजबूत गणितीय ढांचा प्रदान करती है। यह कुछ हद तक शहर नियोजन की तरह है; आप महत्वपूर्ण बुनियादी ढांचे के स्थान को खोए बिना एक जटिल, त्रि-आयामी महानगर को द्वि-आयामी ब्लूप्रिंट पर मैप करने की कोशिश कर रहे हैं।
तकनीकी पत्रकारिता की दुनिया में, हम अक्सर 'ब्रेकथ्रू' (सफलता) शब्द को कंफ़ेद्दी की तरह उछाले जाते हुए देखते हैं। हालाँकि, 'जीरो एक्यूरेसी लॉस' (शून्य सटीकता हानि) का दावा वास्तव में उल्लेखनीय है। ऐतिहासिक रूप से, कम्प्रेशन हमेशा एक समझौता रहा है। यदि आप एक छोटा मॉडल चाहते थे, तो आपको एक 'कम बुद्धिमान' मॉडल स्वीकार करना पड़ता था जो अधिक बार मतिभ्रम (hallucinated) करता था या जटिल तर्क पर अपनी पकड़ खो देता था।
इंजीनियरिंग और समाजशास्त्र के अध्ययन के दौरान, मैं इस बात से मंत्रमुग्ध हो गया कि कैसे तकनीकी सीमाएं अक्सर सांस्कृतिक सीमाओं को निर्धारित करती हैं। जिस छोटे शहर में मैं पला-बढ़ा हूँ, वहाँ इंटरनेट बाहरी दुनिया के लिए एक नाजुक पुल था। यदि एआई को विशाल, महंगे हार्डवेयर की आवश्यकता होती है, तो यह विशिष्ट वर्ग के लिए एक उपकरण बना रहता है। लेकिन अगर टर्बोक्वांट नियतात्मक सटीकता के साथ मेमोरी उपयोग में 6 गुना कमी ला सकता है, तो यह तकनीक का लोकतंत्रीकरण करता है। इसका मतलब है कि एक बजट स्मार्टफोन उस मॉडल को चला सकता है जिसके लिए पहले सर्वर रैक की आवश्यकता होती थी।
अंतिम उपयोगकर्ता के लिए यह कैसा दिखता है? मेरे जैसे व्यक्ति के लिए, जो यात्रा के दौरान उत्पादक बने रहने के लिए उपकरणों के एक सूट पर निर्भर है, इसके निहितार्थ बहुआयामी हैं।
| विशेषता | मानक LLM | टर्बोक्वांट-वर्धित LLM |
|---|---|---|
| मेमोरी उपयोग | उच्च (1x) | अल्ट्रा-लो (~0.16x) |
| संदर्भ विंडो | VRAM द्वारा सीमित | महत्वपूर्ण रूप से विस्तारित |
| ऑन-डिवाइस गति | अक्सर सुस्त | प्रदर्शनशील और सुव्यवस्थित |
| सटीकता | बेसलाइन | बेसलाइन के समान |
| ऊर्जा लागत | उच्च | कम (विस्तारित बैटरी लाइफ) |
इन दक्षताओं के कारण, हम 'एसिंक्रोनस' एआई सहायकों की एक नई पीढ़ी की उम्मीद कर सकते हैं जो पूरी तरह से ऑन-डिवाइस रहते हैं। एक ऐसे अनुवाद ऐप की कल्पना करें जिसे जटिल कानूनी दस्तावेजों को समझने के लिए वाई-फाई सिग्नल की आवश्यकता नहीं है, या एक हेल्थ-टेक वियरेबल जो रीयल-टाइम तनाव प्रबंधन सलाह प्रदान करने के लिए आपके बायोमेट्रिक डेटा को स्थानीय रूप से संसाधित करता है।
एक ऐसे व्यक्ति के रूप में जो अत्याधुनिक गैजेट्स के प्रति प्रेम को समर्पित ध्यान अभ्यास और फूड-टेक के प्रति जुनून के साथ संतुलित करता है, मुझे अधिक कुशल एआई की संभावना गहराई से आकर्षक लगती है। इसका मतलब है कि हमारे उपकरण अधिक आक्रामक या बिजली के भूखे हुए बिना अधिक सहायक हो सकते हैं। हम निरंतर क्लाउड सिंकिंग के घर्षण-भारी अनुभव के बिना एक बड़े मॉडल की परिष्कृत अंतर्दृष्टि प्राप्त कर सकते हैं।
फिर भी, हमें विचारशील रहना चाहिए। जबकि गूगल के नए एल्गोरिदम एक बड़ी छलांग हैं, 'मेमोरी की कमी' एक गतिशील लक्ष्य है। जैसे-जैसे हम मॉडलों को छोटा बनाने के तरीके खोजते हैं, हम अनिवार्य रूप से उन्हें और अधिक जटिल बनाने के तरीके भी खोज लेते हैं। यह नवाचार का एक चक्र है जिसे मैंने CES से लेकर Web Summit तक अनगिनत टेक एक्सपो में देखा है।
डेवलपर्स और संगठनों के लिए, व्यावहारिक निष्कर्ष स्पष्ट है: 'ब्रूट फ़ोर्स' एआई स्केलिंग का युग समाप्त हो रहा है। भविष्य उनका है जो अनुकूलित (optimize) कर सकते हैं। यदि आप एआई-एकीकृत उत्पाद बना रहे हैं, तो अब वेक्टर क्वांटाइजेशन और इन नए कम्प्रेशन मानकों को आपके ब्लूप्रिंट में कैसे एकीकृत किया जा सकता है, इसकी जांच करने का समय है।
दूसरे शब्दों में कहें तो, लक्ष्य केवल एक बड़ा मस्तिष्क बनाना नहीं है; यह एक अधिक कुशल मस्तिष्क बनाना है। जैसे-जैसे हम 2027 की ओर बढ़ रहे हैं, मामूली हार्डवेयर पर उच्च-प्रदर्शन एआई चलाने की क्षमता अप्रचलित तकनीक और अगले विघटनकारी प्लेटफॉर्म के बीच की विभाजन रेखा होगी।
आगे क्या करें:



हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।
/ एक नि: शुल्क खाता बनाएं