कृत्रिम बुद्धिमत्ता

आपका AI उपन्यास तो लिख सकता है लेकिन फिर भी पचास तक गिनने में क्यों संघर्ष करता है

जानें कि कैसे KIS प्रोटोकॉल गिनती के कार्यों में AI के मतिभ्रम को रोकता है, जिससे अपारदर्शी LLM आउटपुट पारदर्शी और ऑडिट योग्य डेटा ट्रेल्स में बदल जाते हैं।
Rahul Mehta
Rahul Mehta
26 अप्रैल 2026
आपका AI उपन्यास तो लिख सकता है लेकिन फिर भी पचास तक गिनने में क्यों संघर्ष करता है

हम वर्तमान में एक विचित्र तकनीकी विरोधाभास के दौर से गुजर रहे हैं। हमने ऐसी मशीनें बनाई हैं जो बार परीक्षा पास करने, दुर्लभ चिकित्सा स्थितियों का निदान करने और सेकंडों में हजारों लाइनों के पुराने कोड को रिफैक्टर करने में सक्षम हैं—फिर भी ये वही डिजिटल दिग्गज अक्सर शब्दों की सूची गिनने जैसे सरल कार्य में लड़खड़ा जाते हैं। यदि आप एक अत्याधुनिक लार्ज लैंग्वेज मॉडल (LLM) से सर्वेक्षण प्रतिक्रियाओं की एक हजार पंक्तियों वाली स्प्रेडशीट को संक्षेप में प्रस्तुत करने के लिए कहते हैं, तो यह एक शानदार अंतर्दृष्टिपूर्ण विषयगत विश्लेषण प्रदान कर सकता है, जबकि साथ ही उत्तरदाताओं की वास्तविक संख्या के बारे में मतिभ्रम (hallucination) भी कर सकता है।

यह केवल मैट्रिक्स में एक मामूली खराबी नहीं है; यह एक मौलिक खिड़की है कि कैसे आधुनिक सॉफ्टवेयर आर्किटेक्चर अतीत की कठोर निश्चितता से हटकर एक तरल, संभाव्यतावादी भविष्य की ओर बढ़ गया है। इसके पीछे, जिस तरह से एक AI "गिनती" करता है, वह पारंपरिक डेटाबेस या मानव मस्तिष्क द्वारा उसी कार्य को करने के तरीके से मौलिक रूप से भिन्न है। हमारी अपेक्षाओं और मॉडल के प्रदर्शन के बीच के इस अंतर ने अध्ययन के एक नए क्षेत्र को जन्म दिया है: डेटा-प्रोसेसिंग कार्यों में मतिभ्रम का मात्रात्मक विश्लेषण।

गिनती की भ्रामक सरलता

रोजमर्रा के शब्दों में, गिनती डिजिटल श्रम की सबसे बुनियादी इकाई की तरह लगती है। हम यह मान लेते हैं कि क्योंकि कंप्यूटर मूल रूप से एक उन्नत कैलकुलेटर है, इसलिए संख्यात्मक सटीकता एक दी हुई बात है। हालांकि, LLM कैलकुलेटर नहीं हैं; वे परिष्कृत भविष्यवाणी इंजन (prediction engines) हैं। जब आप Gemini 3 Flash या GPT-5.3 Instant जैसे मॉडल को "Yes/No/Pending" प्रतिक्रियाओं की एक लंबी सूची प्रदान करते हैं और कुल संख्या मांगते हैं, तो मॉडल केवल एक लूप में वेरिएबल को नहीं बढ़ाता है। यह एक अटेंशन मैकेनिज्म (attention mechanism) के माध्यम से पूरे टेक्स्ट को प्रोसेस करता है, और अपने आंतरिक तंत्रिका पथों में गिनती की "अवस्था" (state) को बनाए रखने का प्रयास करता है।

उपयोगकर्ता के नजरिए से, यह अनुभव अक्सर निराशाजनक होता है। आप देख सकते हैं कि आपका AI सहायक पहली कुछ पंक्तियों को सही पा रहा है, लेकिन पंक्ति 400 तक पहुँचते-पहुँचते अपना स्थान खो देता है। इसे शोधकर्ता आंतरिक ध्यान सीमा (internal attention limitation) कहते हैं। विरोधाभासी रूप से, एक मॉडल जितना अधिक संवादात्मक और "मानवीय" होता जाता है, वह उन्हीं संज्ञानात्मक चूकों के प्रति उतना ही अधिक प्रवृत्त होता है, जो हम तब अनुभव करते हैं जब कोई हम पर यादृच्छिक संख्याएँ चिल्ला रहा हो और हम सिक्कों के एक जार को गिनने की कोशिश कर रहे हों।

एक नया वर्गीकरण: मतिभ्रम के तीन चेहरे

मिराइर्ज़ू लैब कोबो (Mirairzu Lab Kobo) द्वारा किए गए हालिया खोजपूर्ण शोध ने एक दिलचस्प बदलाव की पहचान की है कि कैसे विभिन्न मॉडल इन कार्यों में विफल होते हैं। यह पता चला है कि LLM केवल "गलतियाँ" नहीं करते हैं; वे विशिष्ट व्यवहार पैटर्न प्रदर्शित करते हैं जो विभिन्न प्रकार के सॉफ्टवेयर घर्षण को दर्शाते हैं।

सबसे पहले, कन्फैब्युलेशन टाइप (Confabulation Type) है, जिसका उदाहरण Gemini 3 Flash है। बेसलाइन परीक्षणों में, जेमिनी ने वह प्रदर्शित किया जिसे शोधकर्ता "हार्मोनिक मतिभ्रम" (harmonic hallucination) कहते हैं। यह एक श्रेणी को अधिक गिन सकता है जबकि दूसरी को कम, यह सुनिश्चित करते हुए कि अंतिम कुल गणितीय रूप से सही बना रहे, भले ही वितरण पूरी तरह से मनगढ़ंत हो। साथ ही, हम GPT-5.3 Instant जैसे मॉडलों में अवॉयडेंस टाइप (Avoidance Type) देखते हैं—जहाँ प्रोसेसिंग लोड एक निश्चित सीमा से अधिक होने पर सॉफ्टवेयर बस हार मान लेता है, और एक विनम्र "मैं इतनी सारी वस्तुओं को नहीं गिन सकता" संदेश देता है।

अंत में, प्रोसेस-ओपेक टाइप (Process-Opaque Type) है, जो अक्सर Claude Sonnet 4.6 में देखा जाता है। क्लॉड 2,000 वस्तुओं तक उल्लेखनीय रूप से सटीक है, लेकिन इसकी कार्यप्रणाली एक ब्लैक बॉक्स बनी हुई है। एक डेवलपर के दृष्टिकोण से, यह एक दोधारी तलवार है: आपको सही उत्तर तो मिलता है, लेकिन आपके पास यह जानने का कोई तरीका नहीं होता कि मॉडल अंततः अपने "पतन बिंदु" (collapse point) पर कब या क्यों पहुँचेगा।

मतिभ्रम का प्रकार मॉडल उदाहरण प्राथमिक लक्षण
कन्फैब्युलेशन (Confabulation) Gemini 3 Flash सांख्यिकीय रूप से प्रशंसनीय कुल में फिट होने के लिए डेटा गढ़ता है।
परिहार (Avoidance) GPT-5.3 Instant जटिलता बढ़ने पर कार्य से इनकार करता है या छोड़ देता है।
प्रक्रिया-अपारदर्शी (Process-Opaque) Claude 4.6 अत्यधिक सटीक लेकिन अपने तर्क का कोई ऑडिट ट्रेल प्रदान नहीं करता।

पारंपरिक प्रॉम्प्टिंग की विफलता

ऐतिहासिक रूप से, AI की अशुद्धि के लिए तकनीकी उद्योग का उत्तर "चेन-ऑफ-थॉट" (CoT) प्रॉम्प्टिंग रहा है—"कदम-दर-कदम सोचें" का सरल निर्देश। लेकिन जैसे-जैसे सॉफ्टवेयर अधिक जटिल होता जा रहा है, यह समाधान तकनीकी ऋण (technical debt) के लक्षण दिखा रहा है।

मिराइर्ज़ू लैब के प्रयोगों में, ChatGPT पर अकेले CoT लागू करना वास्तव में उल्टा साबित हुआ। जब 200-आइटम डेटासेट के लिए अपना तर्क लिखने के लिए कहा गया, तो मॉडल की सटीकता वास्तव में गिर गई। उसे जो अतिरिक्त शब्द उत्पन्न करने पड़े, उन्होंने प्रोसेसिंग शोर (processing noise) के रूप में कार्य किया, जिससे मॉडल का ध्यान प्राथमिक कार्य से भटक गया। यह हालिया उद्योग निष्कर्षों के अनुरूप है जो बताते हैं कि तर्क करने वाले मॉडलों की नवीनतम पीढ़ी के लिए, यह बताना कि कैसे सोचना है, कभी-कभी उतना ही विघटनकारी हो सकता है जितना कि एक पेशेवर रेसर को निर्देश चिल्लाने वाला बैक-सीट ड्राइवर।

बाहरी मचान: KIS प्रोटोकॉल की इंजीनियरिंग

यदि सरल प्रॉम्प्टिंग विफल हो जाती है, तो उद्योग अधिक मजबूत, मालिकाना प्रोटोकॉल की ओर बढ़ रहा है। ऐसा ही एक ढांचा नॉलेज इनोवेशन सिस्टम (KIS) है, जो AI के लिए "बाहरी मचान" (external scaffold) के रूप में कार्य करता है। मॉडल की आंतरिक मेमोरी पर भरोसा करने के बजाय, KIS AI को अपने मध्यवर्ती चरणों को एक संरचित लॉग में बाहरी बनाने के लिए मजबूर करता है।

अनिवार्य रूप से, KIS LLM को एक सर्वज्ञ ओरेकल के बजाय एक बड़ी मशीन में एक घटक के रूप में मानता है। "लेवल 4 / लॉजिक: स्ट्रिक्ट" जैसे प्रोटोकॉल को लागू करके, सिस्टम गिनती चरण, सत्यापन चरण और रिपोर्टिंग चरण को अलग करता है। यह संरचनात्मक बाधा एक डिजिटल ब्लूप्रिंट की तरह कार्य करती है, यह सुनिश्चित करती है कि मॉडल अगले चरण पर तब तक नहीं जा सकता जब तक उसने पिछले चरण को सत्यापित नहीं कर लिया हो।

पर्दे के पीछे, यह दृष्टिकोण "हार्मोनिक मतिभ्रम" की समस्या को हल करता है। जब जेमिनी को KIS प्रोटोकॉल के माध्यम से चलाया गया, तो इसकी सटीकता बोर्ड भर में 100% तक बढ़ गई। मॉडल को केवल एक प्रशंसनीय वितरण का अनुमान लगाने की अनुमति नहीं थी; उसे "log: full" आउटपुट प्रदान करने के लिए मजबूर किया गया था जो एक सत्यापन योग्य ऑडिट ट्रेल के रूप में कार्य करता था।

सटीकता से ऑडिटेबिलिटी तक: एक वैचारिक बदलाव

उद्योग के स्तर पर ज़ूम आउट करने पर, यह शोध इस बात पर प्रकाश डालता है कि हम सॉफ्टवेयर का आकलन कैसे करते हैं। वर्षों से, स्वर्ण मानक सटीकता रहा है—क्या ऐप ने मुझे सही उत्तर दिया? लेकिन जैसे-जैसे हम AI को कानूनी, वित्तीय और चिकित्सा वर्कफ़्लो में एकीकृत करते हैं, अकेले सटीकता अब पर्याप्त नहीं है। हम ऑडिटेबिलिटी (auditability) के युग में प्रवेश कर रहे हैं।

जैसा कि क्लॉड का प्रदर्शन दर्शाता है, एक ऐसा मॉडल होना जो "आमतौर पर सही" हो, एक दायित्व है यदि आप नहीं जानते कि यह क्यों सही है। यदि कोई मानव लेखा परीक्षक (auditor) कच्चे डेटा से अंतिम कुल तक के पथ का पता नहीं लगा सकता है, तो सॉफ्टवेयर एक जोखिम बना रहता है। KIS जैसे प्रोटोकॉल वेब के अगले चरण का प्रतिनिधित्व करते हैं: शुरुआती चैटबॉट्स के खंडित, "वाइब्स-आधारित" आउटपुट से हटकर एक अधिक लचीले, पारदर्शी आर्किटेक्चर की ओर, जहाँ प्रक्रिया परिणाम जितनी ही महत्वपूर्ण है।

डिजिटल ब्लूप्रिंट पर पुनः दावा

अंततः, तकनीक के साथ हमारा संबंध इस बात से परिभाषित होता है कि हम "यह कैसे काम करता है" का कितना हिस्सा आउटसोर्स करने के इच्छुक हैं। जब हम गिनने, संक्षेप करने या विश्लेषण करने के लिए LLM का उपयोग करते हैं, तो हम पारंपरिक कोड की यांत्रिक निश्चितता को तंत्रिका नेटवर्क के फुर्तीले अंतर्ज्ञान के साथ बदल रहे होते हैं।

साधारण उपयोगकर्ता के लिए, निष्कर्ष व्यावहारिक है: यह न मानें कि मॉडल का प्रवाह उसकी संख्यात्मक क्षमता का प्रतिनिधि है। अगली बार जब आप किसी डेटा-भारी कार्य में मदद के लिए AI से कहें, तो "मचान" (scaffolding) की तलाश करें। क्या मॉडल अपना काम दिखाता है? क्या यह अपने चरणों का लॉग प्रदान करता है? यदि यह नहीं करता है, तो आप एक ब्लैक बॉक्स देख रहे हैं जो बातचीत को जारी रखने के लिए संख्याएँ गढ़ रहा हो सकता है।

सॉफ्टवेयर डिजाइन में इस मूक बदलाव के बीच, सबसे महत्वपूर्ण कौशल जो हम विकसित कर सकते हैं वह पारदर्शिता के लिए एक "UX दृष्टि" है। हमें ऐसे उपकरणों की मांग करनी चाहिए जो हमें केवल उत्तर न दें, बल्कि उसे साबित करने के लिए आवश्यक ऑडिट ट्रेल भी प्रदान करें। हार्मोनिक मतिभ्रम की दुनिया में, सॉफ्टवेयर का सबसे क्रांतिकारी फीचर एक सत्यापन योग्य लॉग की सरल, विनम्र सच्चाई हो सकती है।

स्रोत:

  • Hasegawa, H., & Kamogawa (2026). KIS: A Question-Centric Protocol Architecture for Hierarchical AI Thought Control. Zenodo.
  • Huang et al. (2024). A Survey on Hallucination in Large Language Models. ACM TOIS.
  • Meincke & Mollick (2025). The Decreasing Value of Chain of Thought in Prompting. Wharton School Research Paper.
  • Zhao et al. (2025). NumericBench: Exposing Numeracy Gaps in Large Language Models. arXiv pre-print.
  • Mirairzu Lab Kobo (2026). Quantitative Analysis of Hallucination Bias in LLM Counting Tasks.
bg
bg
bg

आप दूसरी तरफ देखिए।

हमारा एंड-टू-एंड एन्क्रिप्टेड ईमेल और क्लाउड स्टोरेज समाधान सुरक्षित डेटा एक्सचेंज का सबसे शक्तिशाली माध्यम प्रदान करता है, जो आपके डेटा की सुरक्षा और गोपनीयता सुनिश्चित करता है।

/ एक नि: शुल्क खाता बनाएं