हम वर्तमान में एक विचित्र तकनीकी विरोधाभास के दौर से गुजर रहे हैं। हमने ऐसी मशीनें बनाई हैं जो बार परीक्षा पास करने, दुर्लभ चिकित्सा स्थितियों का निदान करने और सेकंडों में हजारों लाइनों के पुराने कोड को रिफैक्टर करने में सक्षम हैं—फिर भी ये वही डिजिटल दिग्गज अक्सर शब्दों की सूची गिनने जैसे सरल कार्य में लड़खड़ा जाते हैं। यदि आप एक अत्याधुनिक लार्ज लैंग्वेज मॉडल (LLM) से सर्वेक्षण प्रतिक्रियाओं की एक हजार पंक्तियों वाली स्प्रेडशीट को संक्षेप में प्रस्तुत करने के लिए कहते हैं, तो यह एक शानदार अंतर्दृष्टिपूर्ण विषयगत विश्लेषण प्रदान कर सकता है, जबकि साथ ही उत्तरदाताओं की वास्तविक संख्या के बारे में मतिभ्रम (hallucination) भी कर सकता है।
यह केवल मैट्रिक्स में एक मामूली खराबी नहीं है; यह एक मौलिक खिड़की है कि कैसे आधुनिक सॉफ्टवेयर आर्किटेक्चर अतीत की कठोर निश्चितता से हटकर एक तरल, संभाव्यतावादी भविष्य की ओर बढ़ गया है। इसके पीछे, जिस तरह से एक AI "गिनती" करता है, वह पारंपरिक डेटाबेस या मानव मस्तिष्क द्वारा उसी कार्य को करने के तरीके से मौलिक रूप से भिन्न है। हमारी अपेक्षाओं और मॉडल के प्रदर्शन के बीच के इस अंतर ने अध्ययन के एक नए क्षेत्र को जन्म दिया है: डेटा-प्रोसेसिंग कार्यों में मतिभ्रम का मात्रात्मक विश्लेषण।
रोजमर्रा के शब्दों में, गिनती डिजिटल श्रम की सबसे बुनियादी इकाई की तरह लगती है। हम यह मान लेते हैं कि क्योंकि कंप्यूटर मूल रूप से एक उन्नत कैलकुलेटर है, इसलिए संख्यात्मक सटीकता एक दी हुई बात है। हालांकि, LLM कैलकुलेटर नहीं हैं; वे परिष्कृत भविष्यवाणी इंजन (prediction engines) हैं। जब आप Gemini 3 Flash या GPT-5.3 Instant जैसे मॉडल को "Yes/No/Pending" प्रतिक्रियाओं की एक लंबी सूची प्रदान करते हैं और कुल संख्या मांगते हैं, तो मॉडल केवल एक लूप में वेरिएबल को नहीं बढ़ाता है। यह एक अटेंशन मैकेनिज्म (attention mechanism) के माध्यम से पूरे टेक्स्ट को प्रोसेस करता है, और अपने आंतरिक तंत्रिका पथों में गिनती की "अवस्था" (state) को बनाए रखने का प्रयास करता है।
उपयोगकर्ता के नजरिए से, यह अनुभव अक्सर निराशाजनक होता है। आप देख सकते हैं कि आपका AI सहायक पहली कुछ पंक्तियों को सही पा रहा है, लेकिन पंक्ति 400 तक पहुँचते-पहुँचते अपना स्थान खो देता है। इसे शोधकर्ता आंतरिक ध्यान सीमा (internal attention limitation) कहते हैं। विरोधाभासी रूप से, एक मॉडल जितना अधिक संवादात्मक और "मानवीय" होता जाता है, वह उन्हीं संज्ञानात्मक चूकों के प्रति उतना ही अधिक प्रवृत्त होता है, जो हम तब अनुभव करते हैं जब कोई हम पर यादृच्छिक संख्याएँ चिल्ला रहा हो और हम सिक्कों के एक जार को गिनने की कोशिश कर रहे हों।
मिराइर्ज़ू लैब कोबो (Mirairzu Lab Kobo) द्वारा किए गए हालिया खोजपूर्ण शोध ने एक दिलचस्प बदलाव की पहचान की है कि कैसे विभिन्न मॉडल इन कार्यों में विफल होते हैं। यह पता चला है कि LLM केवल "गलतियाँ" नहीं करते हैं; वे विशिष्ट व्यवहार पैटर्न प्रदर्शित करते हैं जो विभिन्न प्रकार के सॉफ्टवेयर घर्षण को दर्शाते हैं।
सबसे पहले, कन्फैब्युलेशन टाइप (Confabulation Type) है, जिसका उदाहरण Gemini 3 Flash है। बेसलाइन परीक्षणों में, जेमिनी ने वह प्रदर्शित किया जिसे शोधकर्ता "हार्मोनिक मतिभ्रम" (harmonic hallucination) कहते हैं। यह एक श्रेणी को अधिक गिन सकता है जबकि दूसरी को कम, यह सुनिश्चित करते हुए कि अंतिम कुल गणितीय रूप से सही बना रहे, भले ही वितरण पूरी तरह से मनगढ़ंत हो। साथ ही, हम GPT-5.3 Instant जैसे मॉडलों में अवॉयडेंस टाइप (Avoidance Type) देखते हैं—जहाँ प्रोसेसिंग लोड एक निश्चित सीमा से अधिक होने पर सॉफ्टवेयर बस हार मान लेता है, और एक विनम्र "मैं इतनी सारी वस्तुओं को नहीं गिन सकता" संदेश देता है।
अंत में, प्रोसेस-ओपेक टाइप (Process-Opaque Type) है, जो अक्सर Claude Sonnet 4.6 में देखा जाता है। क्लॉड 2,000 वस्तुओं तक उल्लेखनीय रूप से सटीक है, लेकिन इसकी कार्यप्रणाली एक ब्लैक बॉक्स बनी हुई है। एक डेवलपर के दृष्टिकोण से, यह एक दोधारी तलवार है: आपको सही उत्तर तो मिलता है, लेकिन आपके पास यह जानने का कोई तरीका नहीं होता कि मॉडल अंततः अपने "पतन बिंदु" (collapse point) पर कब या क्यों पहुँचेगा।
| मतिभ्रम का प्रकार | मॉडल उदाहरण | प्राथमिक लक्षण |
|---|---|---|
| कन्फैब्युलेशन (Confabulation) | Gemini 3 Flash | सांख्यिकीय रूप से प्रशंसनीय कुल में फिट होने के लिए डेटा गढ़ता है। |
| परिहार (Avoidance) | GPT-5.3 Instant | जटिलता बढ़ने पर कार्य से इनकार करता है या छोड़ देता है। |
| प्रक्रिया-अपारदर्शी (Process-Opaque) | Claude 4.6 | अत्यधिक सटीक लेकिन अपने तर्क का कोई ऑडिट ट्रेल प्रदान नहीं करता। |
ऐतिहासिक रूप से, AI की अशुद्धि के लिए तकनीकी उद्योग का उत्तर "चेन-ऑफ-थॉट" (CoT) प्रॉम्प्टिंग रहा है—"कदम-दर-कदम सोचें" का सरल निर्देश। लेकिन जैसे-जैसे सॉफ्टवेयर अधिक जटिल होता जा रहा है, यह समाधान तकनीकी ऋण (technical debt) के लक्षण दिखा रहा है।
मिराइर्ज़ू लैब के प्रयोगों में, ChatGPT पर अकेले CoT लागू करना वास्तव में उल्टा साबित हुआ। जब 200-आइटम डेटासेट के लिए अपना तर्क लिखने के लिए कहा गया, तो मॉडल की सटीकता वास्तव में गिर गई। उसे जो अतिरिक्त शब्द उत्पन्न करने पड़े, उन्होंने प्रोसेसिंग शोर (processing noise) के रूप में कार्य किया, जिससे मॉडल का ध्यान प्राथमिक कार्य से भटक गया। यह हालिया उद्योग निष्कर्षों के अनुरूप है जो बताते हैं कि तर्क करने वाले मॉडलों की नवीनतम पीढ़ी के लिए, यह बताना कि कैसे सोचना है, कभी-कभी उतना ही विघटनकारी हो सकता है जितना कि एक पेशेवर रेसर को निर्देश चिल्लाने वाला बैक-सीट ड्राइवर।
यदि सरल प्रॉम्प्टिंग विफल हो जाती है, तो उद्योग अधिक मजबूत, मालिकाना प्रोटोकॉल की ओर बढ़ रहा है। ऐसा ही एक ढांचा नॉलेज इनोवेशन सिस्टम (KIS) है, जो AI के लिए "बाहरी मचान" (external scaffold) के रूप में कार्य करता है। मॉडल की आंतरिक मेमोरी पर भरोसा करने के बजाय, KIS AI को अपने मध्यवर्ती चरणों को एक संरचित लॉग में बाहरी बनाने के लिए मजबूर करता है।
अनिवार्य रूप से, KIS LLM को एक सर्वज्ञ ओरेकल के बजाय एक बड़ी मशीन में एक घटक के रूप में मानता है। "लेवल 4 / लॉजिक: स्ट्रिक्ट" जैसे प्रोटोकॉल को लागू करके, सिस्टम गिनती चरण, सत्यापन चरण और रिपोर्टिंग चरण को अलग करता है। यह संरचनात्मक बाधा एक डिजिटल ब्लूप्रिंट की तरह कार्य करती है, यह सुनिश्चित करती है कि मॉडल अगले चरण पर तब तक नहीं जा सकता जब तक उसने पिछले चरण को सत्यापित नहीं कर लिया हो।
पर्दे के पीछे, यह दृष्टिकोण "हार्मोनिक मतिभ्रम" की समस्या को हल करता है। जब जेमिनी को KIS प्रोटोकॉल के माध्यम से चलाया गया, तो इसकी सटीकता बोर्ड भर में 100% तक बढ़ गई। मॉडल को केवल एक प्रशंसनीय वितरण का अनुमान लगाने की अनुमति नहीं थी; उसे "log: full" आउटपुट प्रदान करने के लिए मजबूर किया गया था जो एक सत्यापन योग्य ऑडिट ट्रेल के रूप में कार्य करता था।
उद्योग के स्तर पर ज़ूम आउट करने पर, यह शोध इस बात पर प्रकाश डालता है कि हम सॉफ्टवेयर का आकलन कैसे करते हैं। वर्षों से, स्वर्ण मानक सटीकता रहा है—क्या ऐप ने मुझे सही उत्तर दिया? लेकिन जैसे-जैसे हम AI को कानूनी, वित्तीय और चिकित्सा वर्कफ़्लो में एकीकृत करते हैं, अकेले सटीकता अब पर्याप्त नहीं है। हम ऑडिटेबिलिटी (auditability) के युग में प्रवेश कर रहे हैं।
जैसा कि क्लॉड का प्रदर्शन दर्शाता है, एक ऐसा मॉडल होना जो "आमतौर पर सही" हो, एक दायित्व है यदि आप नहीं जानते कि यह क्यों सही है। यदि कोई मानव लेखा परीक्षक (auditor) कच्चे डेटा से अंतिम कुल तक के पथ का पता नहीं लगा सकता है, तो सॉफ्टवेयर एक जोखिम बना रहता है। KIS जैसे प्रोटोकॉल वेब के अगले चरण का प्रतिनिधित्व करते हैं: शुरुआती चैटबॉट्स के खंडित, "वाइब्स-आधारित" आउटपुट से हटकर एक अधिक लचीले, पारदर्शी आर्किटेक्चर की ओर, जहाँ प्रक्रिया परिणाम जितनी ही महत्वपूर्ण है।
अंततः, तकनीक के साथ हमारा संबंध इस बात से परिभाषित होता है कि हम "यह कैसे काम करता है" का कितना हिस्सा आउटसोर्स करने के इच्छुक हैं। जब हम गिनने, संक्षेप करने या विश्लेषण करने के लिए LLM का उपयोग करते हैं, तो हम पारंपरिक कोड की यांत्रिक निश्चितता को तंत्रिका नेटवर्क के फुर्तीले अंतर्ज्ञान के साथ बदल रहे होते हैं।
साधारण उपयोगकर्ता के लिए, निष्कर्ष व्यावहारिक है: यह न मानें कि मॉडल का प्रवाह उसकी संख्यात्मक क्षमता का प्रतिनिधि है। अगली बार जब आप किसी डेटा-भारी कार्य में मदद के लिए AI से कहें, तो "मचान" (scaffolding) की तलाश करें। क्या मॉडल अपना काम दिखाता है? क्या यह अपने चरणों का लॉग प्रदान करता है? यदि यह नहीं करता है, तो आप एक ब्लैक बॉक्स देख रहे हैं जो बातचीत को जारी रखने के लिए संख्याएँ गढ़ रहा हो सकता है।
सॉफ्टवेयर डिजाइन में इस मूक बदलाव के बीच, सबसे महत्वपूर्ण कौशल जो हम विकसित कर सकते हैं वह पारदर्शिता के लिए एक "UX दृष्टि" है। हमें ऐसे उपकरणों की मांग करनी चाहिए जो हमें केवल उत्तर न दें, बल्कि उसे साबित करने के लिए आवश्यक ऑडिट ट्रेल भी प्रदान करें। हार्मोनिक मतिभ्रम की दुनिया में, सॉफ्टवेयर का सबसे क्रांतिकारी फीचर एक सत्यापन योग्य लॉग की सरल, विनम्र सच्चाई हो सकती है।
स्रोत:



हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।
/ एक नि: शुल्क खाता बनाएं