为什么你的 AI 能写小说却仍难以数到五十

探索 KIS 协议如何抑制 AI 在计数任务中的幻觉，将不透明的 LLM 输出转化为透明、可审计的数据轨迹。

2026年4月26日

我们目前正生活在一个奇异的技术悖论中。我们制造出的机器能够通过律师资格考试、诊断罕见疾病，并在几秒钟内重构数千行遗留代码——然而，这些数字巨人却经常在统计单词列表这种简单的任务上栽跟头。如果你要求一个尖端的大语言模型（LLM）总结一份包含一千行调查回复的表格，它可能会提供精辟且富有见地的专题分析，同时却对实际受访者人数产生幻觉。

这不仅仅是矩阵中的一个小故障；它是观察现代软件架构如何从过去的严谨确定性转向流动的概率化未来的一个根本窗口。在底层，AI“计数”的方式与传统数据库或人类大脑执行相同任务的方式截然不同。我们的预期与模型表现之间的这种差距催生了一个新的研究领域：数据处理任务中幻觉的定量分析。

计数那具有欺骗性的简单

在日常术语中，计数感觉像是数字劳动的最基本单元。我们假设，因为计算机本质上是一个高级计算器，所以数值准确性是理所当然的。然而，LLM 不是计算器；它们是复杂的预测引擎。当你为 Gemini 3 Flash 或 GPT-5.3 Instant 这样的模型提供一长串“是/否/待定”的回复并要求统计总数时，模型并不仅仅是在循环中增加一个变量。它通过注意力机制处理整个文本，试图在其内部神经通路中维持计数的“状态”。

从用户的视角来看，这种体验通常令人沮丧。你可能会注意到你的 AI 助手在前几行表现正确，但在第 400 行左右就开始迷失方向。这就是研究人员所说的内部注意力限制。矛盾的是，一个模型变得越具有对话性和“人性”，它就越容易出现类似于我们在别人对着我们大喊随机数字时尝试数一罐便士所经历的那种认知失误。

新的分类法：幻觉的三张面孔

由 Mirairzu Lab Kobo 进行的最新探索性研究发现，不同模型在这些任务中失败的方式发生了迷人的转变。事实证明，LLM 不仅仅是“犯错”；它们表现出反映不同类型软件摩擦的独特行为模式。

首先是虚构型（Confabulation Type），以 Gemini 3 Flash 为代表。在基准测试中，Gemini 表现出研究人员称之为“和谐幻觉”的现象。它可能会多算一类而少算另一类，以确保最终总数在数学上保持完美，即使分布完全是捏造的。同时，我们在 GPT-5.3 Instant 等模型中看到了规避型（Avoidance Type）——一旦处理负荷超过某个阈值，软件就会直接放弃，并返回一条礼貌的“我无法统计这么多项目”的消息。

最后是过程不透明型（Process-Opaque Type），常见于 Claude Sonnet 4.6。Claude 的准确率非常高，甚至可以处理多达 2,000 个项目，但其方法论仍然是一个黑匣子。从开发者的角度来看，这是一把双刃剑：你得到了正确的答案，但你无法知道模型何时或为何最终会达到其“崩溃点”。

幻觉类型	模型示例	主要症状
虚构型	Gemini 3 Flash	捏造数据以符合统计上合理的总数。
规避型	GPT-5.3 Instant	当复杂度升高时拒绝或放弃任务。
过程不透明型	Claude 4.6	准确率高但无法提供其逻辑的审计线索。

传统提示词的失效

从历史上看，科技界对 AI 不准确性的对策一直是“思维链”（CoT）提示——即“一步步思考”的简单指令。但随着软件变得越来越复杂，这种曾经无处不在的解决方案正显现出技术债务的迹象。

在 Mirairzu Lab 的实验中，仅对 ChatGPT 应用 CoT 实际上适得其反。当被要求写出其对 200 个项目数据集的推理过程时，模型的准确率反而下降了。它必须生成的额外单词充当了处理噪声，分散了模型对主要任务的注意力。这与最近的行业发现一致，即对于最新一代的推理模型，被告知如何思考有时会像后座司机对专业赛车手大喊大叫指挥方向一样具有干扰性。

外部支架：KIS 协议的工程化

如果简单的提示词失效，行业正转向更稳健的专有协议。其中一个框架是知识创新系统（KIS），它充当 AI 的“外部支架”。KIS 不依赖模型的内部记忆，而是强制 AI 将其中间步骤外部化到结构化日志中。

从本质上讲，KIS 将 LLM 视为大型机器中的一个组件，而不是全知的神谕。通过执行诸如“Level 4 / Logic: Strict”之类的协议，系统将计数阶段、验证阶段和报告阶段分离开来。这种结构性约束就像一个数字蓝图，确保模型在验证前一步之前无法进入下一步。

在屏幕背后，这种方法解决了“和谐幻觉”问题。当 Gemini 通过 KIS 协议运行时，其准确率全面跃升至 100%。模型不被允许仅仅猜测一个合理的分布；它被迫提供一个“log: full”输出，作为可验证的审计线索。

从准确性到可审计性：范式转移

放大到行业层面，这项研究凸显了我们评价软件方式的深刻转变。多年来，金标准一直是准确性——应用程序给我正确答案了吗？但随着我们将 AI 集成到法律、财务和医疗工作流中，仅有准确性已不再足够。我们正在进入可审计性时代。

正如 Claude 的表现所说明的，如果你不知道模型为什么正确，那么一个“通常正确”的模型就是一种负担。如果人类审计员无法追踪从原始数据到最终总数的路径，那么该软件就仍然存在风险。像 KIS 这样的协议代表了 Web 的下一个阶段：从早期聊天机器人支离破碎、基于“感觉”的输出，转向更具韧性、透明的架构，在这里，过程与结果同样重要。

夺回数字蓝图

最终，我们与技术的关系取决于我们愿意将多少“它是如何工作的”外包出去。当我们使用 LLM 进行计数、总结或分析时，我们是在用传统代码的机械确定性换取神经网络的敏捷直觉。

对于普通用户来说，结论是务实的：不要假设模型的流利度代表了它的计算能力。下次当你请求 AI 帮助处理数据密集型任务时，请寻找“支架”。模型是否展示了它的工作过程？它是否提供了步骤日志？如果没有，你面对的就是一个黑匣子，它可能只是为了让对话继续下去而编造数字。

当我们在这个无声的软件设计转变中航行时，我们能培养的最重要的技能就是对透明度的“用户体验眼光”。我们应该要求那些不仅能给出答案，还能提供证明答案所需的审计线索的工具。在一个充满和谐幻觉的世界里，一件软件能提供的最具颠覆性的功能就是可验证日志中那简单、谦卑的真相。

Sources:

Hasegawa, H., & Kamogawa (2026). KIS: A Question-Centric Protocol Architecture for Hierarchical AI Thought Control. Zenodo.
Huang et al. (2024). A Survey on Hallucination in Large Language Models. ACM TOIS.
Meincke & Mollick (2025). The Decreasing Value of Chain of Thought in Prompting. Wharton School Research Paper.
Zhao et al. (2025). NumericBench: Exposing Numeracy Gaps in Large Language Models. arXiv pre-print.
Mirairzu Lab Kobo (2026). Quantitative Analysis of Hallucination Bias in LLM Counting Tasks.