ИИ

Почему ваш ИИ может написать роман, но все еще с трудом считает до пятидесяти

Узнайте, как протокол KIS подавляет галлюцинации ИИ в задачах подсчета, превращая непрозрачные ответы LLM в прозрачные и проверяемые цепочки данных.
Rahul Mehta
Rahul Mehta
26 апреля 2026 г.
Почему ваш ИИ может написать роман, но все еще с трудом считает до пятидесяти

Мы живем в эпоху причудливого технологического парадокса. Мы создали машины, способные сдать экзамен на адвоката, диагностировать редкие заболевания и за считанные секунды проводить рефакторинг тысяч строк устаревшего кода — и все же эти цифровые титаны часто спотыкаются на простой задаче подсчета слов в списке. Если вы попросите передовую большую языковую модель (LLM) проанализировать таблицу с тысячей строк ответов на опрос, она может предоставить блестящий и глубокий тематический анализ, одновременно галлюцинируя по поводу реального количества респондентов.

Это не просто незначительный сбой в матрице; это фундаментальное окно в то, как архитектура современного программного обеспечения сместилась от жесткой определенности прошлого к гибкому, вероятностному будущему. «Под капотом» то, как ИИ «считает», радикально отличается от того, как ту же задачу выполняет традиционная база данных или человеческий мозг. Этот разрыв между нашими ожиданиями и производительностью модели породил новую область исследований: количественный анализ галлюцинаций в задачах обработки данных.

Обманчивая простота подсчета

В повседневном понимании счет кажется базовой единицей цифрового труда. Мы предполагаем, что поскольку компьютер, по сути, является прославленным калькулятором, числовая точность — это нечто само собой разумеющееся. Однако LLM — это не калькуляторы; это сложные механизмы прогнозирования. Когда вы предоставляете такой модели, как Gemini 3 Flash или GPT-5.3 Instant, длинный список ответов «Да/Нет/В ожидании» и запрашиваете итог, модель не просто увеличивает переменную в цикле. Она обрабатывает весь текст через механизм внимания, пытаясь поддерживать «состояние» счета в своих внутренних нейронных путях.

С точки зрения пользователя, этот опыт часто разочаровывает. Вы можете заметить, что ваш ИИ-ассистент правильно обрабатывает первые несколько строк, но теряет нить к 400-й строке. Это то, что исследователи называют ограничением внутреннего внимания. Парадоксально, но чем более разговорчивой и «человечной» становится модель, тем больше она кажется склонной к тем же когнитивным ошибкам, которые мы совершаем, пытаясь сосчитать монеты в банке, пока кто-то выкрикивает случайные числа.

Новая таксономия: три лика галлюцинаций

Недавнее разведочное исследование, проведенное Mirairzu Lab Kobo, выявило любопытный сдвиг в том, как различные модели терпят неудачу в этих задачах. Оказывается, LLM не просто «совершают ошибки»; они демонстрируют отчетливые поведенческие паттерны, отражающие различные типы программного трения.

Во-первых, существует Конфабуляционный тип, примером которого является Gemini 3 Flash. В базовых тестах Gemini продемонстрировала то, что исследователи называют «гармонической галлюцинацией». Она может завысить количество в одной категории, занизив его в другой, гарантируя, что итоговая сумма останется математически идеальной, даже если распределение является полным вымыслом. Одновременно мы видим Тип избегания в таких моделях, как GPT-5.3 Instant — когда программное обеспечение просто сдается, как только вычислительная нагрузка превышает определенный порог, выдавая вежливое сообщение: «Я не могу сосчитать так много элементов».

Наконец, существует Процессуально-непрозрачный тип, часто встречающийся у Claude Sonnet 4.6. Claude удивительно точен даже при обработке до 2000 элементов, но его методология остается «черным ящиком». С точки зрения разработчика это палка о двух концах: вы получаете правильный ответ, но у вас нет возможности узнать, когда и почему модель в конечном итоге достигнет своей «точки коллапса».

Тип галлюцинации Пример модели Основной симптом
Конфабуляция Gemini 3 Flash Фабрикует данные, чтобы подогнать их под статистически правдоподобный итог.
Избегание GPT-5.3 Instant Отказывается или прекращает выполнение задачи при росте сложности.
Процессуальная непрозрачность Claude 4.6 Высокая точность, но отсутствие контрольного журнала логики.

Провал традиционного промптинга

Исторически ответом технологической индустрии на неточность ИИ был промптинг «Цепочка рассуждений» (Chain-of-Thought, CoT) — простая инструкция «думай шаг за шагом». Но по мере усложнения программного обеспечения это некогда повсеместное решение начинает демонстрировать признаки технического долга.

В экспериментах Mirairzu Lab применение только CoT к ChatGPT фактически оказалось контрпродуктивным. Когда модель просили расписать свои рассуждения для набора данных из 200 элементов, ее точность на самом деле снизилась. Дополнительные слова, которые ей приходилось генерировать, действовали как процессуальный шум, отвлекая модель от основной задачи. Это согласуется с недавними отраслевыми выводами, предполагающими, что для последнего поколения рассуждающих моделей указания о том, как думать, иногда могут быть такими же деструктивными, как выкрики пассажира с заднего сиденья, дающего советы профессиональному гонщику.

Внешний каркас: проектирование протокола KIS

Если простой промптинг не справляется, индустрия переходит к более надежным проприетарным протоколам. Одной из таких структур является Система Инноваций Знаний (Knowledge Innovation System, KIS), которая действует как «внешний каркас» для ИИ. Вместо того чтобы полагаться на внутреннюю память модели, KIS заставляет ИИ экстернализировать свои промежуточные шаги в структурированный лог.

По сути, KIS рассматривает LLM как компонент в более крупной машине, а не как всезнающего оракула. Путем принудительного применения протокола типа «Level 4 / Logic: Strict», система разделяет фазу подсчета, фазу проверки и фазу отчетности. Это структурное ограничение функционирует как цифровой чертеж, гарантируя, что модель не сможет перейти к следующему шагу, пока не верифицирует предыдущий.

«За экраном» такой подход решает проблему «гармонической галлюцинации». Когда Gemini прогнали через протокол KIS, ее точность подскочила до 100% по всем направлениям. Модели не позволялось просто угадывать правдоподобное распределение; она была вынуждена предоставить вывод «log: full», который служил проверяемым контрольным журналом.

От точности к проверяемости: смена парадигмы

Если взглянуть на ситуацию на уровне индустрии, это исследование подчеркивает глубокий сдвиг в том, как мы оцениваем программное обеспечение. В течение многих лет золотым стандартом была точность — дало ли приложение мне правильный ответ? Но по мере того как мы интегрируем ИИ в юридические, финансовые и медицинские рабочие процессы, одной точности уже недостаточно. Мы вступаем в эру проверяемости (аудируемости).

Как иллюстрирует пример Claude, наличие модели, которая «обычно права», является фактором риска, если вы не знаете, почему она права. Если человек-аудитор не может проследить путь от необработанных данных до итоговой суммы, программное обеспечение остается рискованным. Протоколы вроде KIS представляют собой следующий этап развития сети: переход от фрагментированных ответов первых чат-ботов, основанных на «ощущениях», к более устойчивой и прозрачной архитектуре, где процесс так же важен, как и результат.

Возвращение цифрового чертежа

В конечном счете, наши отношения с технологиями определяются тем, какую часть вопроса «как это работает» мы готовы отдать на аутсорс. Когда мы используем LLM для подсчета, обобщения или анализа, мы обмениваем механическую определенность традиционного кода на гибкую интуицию нейронных сетей.

Для обычного пользователя вывод прагматичен: не считайте беглость речи модели показателем ее умения считать. В следующий раз, когда вы попросите ИИ помочь с задачей, требующей обработки большого объема данных, ищите «каркас». Показывает ли модель свою работу? Предоставляет ли она лог своих действий? Если нет, то перед вами «черный ящик», который может выдумывать цифры просто для того, чтобы поддержать разговор.

По мере того как мы ориентируемся в этом тихом сдвиге в дизайне программного обеспечения, самым важным навыком, который мы можем развить, становится «UX-взгляд» на прозрачность. Мы должны требовать инструменты, которые не просто дают нам ответ, но и предоставляют контрольный журнал, необходимый для его подтверждения. В мире гармонических галлюцинаций самой революционной функцией, которую может предложить программное обеспечение, является простая и скромная истина верифицируемого лога.

Источники:

  • Hasegawa, H., & Kamogawa (2026). KIS: A Question-Centric Protocol Architecture for Hierarchical AI Thought Control. Zenodo.
  • Huang et al. (2024). A Survey on Hallucination in Large Language Models. ACM TOIS.
  • Meincke & Mollick (2025). The Decreasing Value of Chain of Thought in Prompting. Wharton School Research Paper.
  • Zhao et al. (2025). NumericBench: Exposing Numeracy Gaps in Large Language Models. arXiv pre-print.
  • Mirairzu Lab Kobo (2026). Quantitative Analysis of Hallucination Bias in LLM Counting Tasks.
bg
bg
bg

До встречи на другой стороне.

Наше решение для электронной почты и облачного хранения данных со сквозным шифрованием обеспечивает наиболее мощные средства безопасного обмена данными, гарантируя их сохранность и конфиденциальность.

/ Создать бесплатный аккаунт