Inteligencia artificial

¿Por qué su IA puede escribir una novela pero aún le cuesta contar hasta cincuenta?

Explore cómo el protocolo KIS suprime las alucinaciones de la IA en tareas de conteo, transformando los resultados opacos de los LLM en rastros de datos transparentes y auditables.
Rahul Mehta
Rahul Mehta
26 de abril de 2026
¿Por qué su IA puede escribir una novela pero aún le cuesta contar hasta cincuenta?

Actualmente vivimos una extraña paradoja tecnológica. Hemos construido máquinas capaces de aprobar el examen de abogacía, diagnosticar condiciones médicas raras y refactorizar miles de líneas de código heredado en segundos; sin embargo, estos mismos titanes digitales a menudo tropiezan con la sencilla tarea de contar una lista de palabras. Si se le pide a un modelo de lenguaje de gran tamaño (LLM) de última generación que resuma una hoja de cálculo de mil filas de respuestas a una encuesta, podría proporcionar un análisis temático brillantemente perspicaz mientras, simultáneamente, alucina el número real de encuestados.

Esto no es solo un pequeño error en la matriz; es una ventana fundamental a cómo la arquitectura de software moderna se ha alejado de la rigidez y certeza del pasado hacia un futuro fluido y probabilístico. Bajo el capó, la forma en que una IA "cuenta" es radicalmente diferente de la forma en que una base de datos tradicional o un cerebro humano realizan la misma tarea. Esta brecha entre nuestras expectativas y el rendimiento del modelo ha dado lugar a un nuevo campo de estudio: el análisis cuantitativo de la alucinación en tareas de procesamiento de datos.

La engañosa simplicidad del conteo

En términos cotidianos, contar parece la unidad más básica del trabajo digital. Asumimos que, debido a que una computadora es, en su esencia, una calculadora glorificada, la precisión numérica es un hecho. Sin embargo, los LLM no son calculadoras; son motores de predicción sofisticados. Cuando se le proporciona a un modelo como Gemini 3 Flash o GPT-5.3 Instant una larga lista de respuestas "Sí/No/Pendiente" y se le pide un total, el modelo no se limita a incrementar una variable en un bucle. Procesa todo el texto a través de un mecanismo de atención, intentando mantener el "estado" del conteo a través de sus vías neuronales internas.

Desde la perspectiva del usuario, la experiencia suele ser frustrante. Es posible que note que su asistente de IA acierta en las primeras filas, solo para perder el hilo en la fila 400. Esto es lo que los investigadores llaman una limitación de atención interna. Paradójicamente, cuanto más conversacional y "humano" se vuelve un modelo, más parece propenso a los mismos lapsos cognitivos que experimentamos cuando intentamos contar un frasco de monedas mientras alguien nos grita números al azar.

Una nueva taxonomía: Las tres caras de la alucinación

Investigaciones exploratorias recientes realizadas por el Mirairzu Lab Kobo han identificado un cambio fascinante en cómo los diferentes modelos fallan en estas tareas. Resulta que los LLM no solo "cometen errores"; exhiben patrones de comportamiento distintos que reflejan diferentes tipos de fricción de software.

Primero, está el Tipo de Confabulación, ejemplificado por Gemini 3 Flash. En las pruebas de referencia, Gemini exhibió lo que los investigadores denominan "alucinación armónica". Podría contar de más una categoría mientras cuenta de menos otra, asegurando que el total final siga siendo matemáticamente perfecto incluso si la distribución es una fabricación total. Simultáneamente, vemos el Tipo de Evitación en modelos como GPT-5.3 Instant, donde el software simplemente se rinde una vez que la carga de procesamiento supera cierto umbral, devolviendo un cortés mensaje de "No puedo contar tantos elementos".

Finalmente, está el Tipo de Proceso Opaco, que se ve a menudo en Claude Sonnet 4.6. Claude es notablemente preciso, incluso hasta los 2,000 elementos, pero su metodología sigue siendo una caja negra. Desde el punto de vista de un desarrollador, esto es un arma de doble filo: obtienes la respuesta correcta, pero no tienes forma de saber cuándo o por qué el modelo alcanzará eventualmente su "punto de colapso".

Tipo de alucinación Ejemplo de modelo Síntoma principal
Confabulación Gemini 3 Flash Fabrica datos para ajustarse a un total estadísticamente plausible.
Evitación GPT-5.3 Instant Rechaza o abandona la tarea cuando aumenta la complejidad.
Proceso opaco Claude 4.6 Altamente preciso pero no proporciona un rastro de auditoría de su lógica.

El fracaso de la instrucción tradicional

Históricamente, la respuesta de la industria tecnológica a la imprecisión de la IA ha sido la instrucción de "Cadena de pensamiento" (CoT, por sus siglas en inglés): la simple instrucción de "pensar paso a paso". Pero a medida que el software se vuelve más complejo, esta solución, antes ubicua, muestra signos de deuda técnica.

En los experimentos del Mirairzu Lab, aplicar CoT por sí solo a ChatGPT resultó ser contraproducente. Cuando se le pidió que escribiera su razonamiento para un conjunto de datos de 200 elementos, la precisión del modelo en realidad disminuyó. Las palabras adicionales que tuvo que generar actuaron como ruido de procesamiento, distrayendo al modelo de la tarea principal. Esto se alinea con hallazgos recientes de la industria que sugieren que para la última generación de modelos de razonamiento, decirles cómo pensar a veces puede ser tan perturbador como un copiloto gritando direcciones a un piloto de carreras profesional.

El andamiaje externo: Ingeniería del protocolo KIS

Si la instrucción simple falla, la industria se está desplazando hacia protocolos patentados más robustos. Uno de estos marcos es el Sistema de Innovación del Conocimiento (KIS, por sus siglas en inglés), que actúa como un "andamiaje externo" para la IA. En lugar de confiar en la memoria interna del modelo, el KIS obliga a la IA a externalizar sus pasos intermedios en un registro estructurado.

Esencialmente, el KIS trata al LLM como un componente en una máquina más grande en lugar de un oráculo omnisciente. Al imponer un protocolo como "Nivel 4 / Lógica: Estricta", el sistema separa la fase de conteo, la fase de verificación y la fase de informe. Esta restricción estructural funciona como un plano digital, asegurando que el modelo no pueda pasar al siguiente paso hasta que haya verificado el anterior.

Detrás de la pantalla, este enfoque resuelve el problema de la "alucinación armónica". Cuando Gemini se ejecutó a través del protocolo KIS, su precisión saltó al 100% en todos los ámbitos. Al modelo no se le permitió simplemente adivinar una distribución plausible; se le obligó a proporcionar una salida de "log: full" que sirvió como un rastro de auditoría verificable.

De la precisión a la auditabilidad: Un cambio de paradigma

Ampliando la perspectiva al nivel de la industria, esta investigación destaca un cambio profundo en cómo juzgamos el software. Durante años, el estándar de oro ha sido la precisión: ¿me dio la aplicación la respuesta correcta? Pero a medida que integramos la IA en los flujos de trabajo legales, financieros y médicos, la precisión por sí sola ya no es suficiente. Estamos entrando en la era de la auditabilidad.

Como ilustra el rendimiento de Claude, tener un modelo que "normalmente tiene razón" es un riesgo si no se sabe por qué tiene razón. Si un auditor humano no puede rastrear el camino desde los datos brutos hasta el total final, el software sigue siendo un riesgo. Protocolos como KIS representan la siguiente etapa de la web: un alejamiento de los resultados fragmentados y "basados en vibras" de los primeros chatbots hacia una arquitectura más resistente y transparente donde el proceso es tan importante como el resultado.

Reclamando el plano digital

En última instancia, nuestra relación con la tecnología se define por cuánto del "cómo funciona" estamos dispuestos a externalizar. Cuando usamos un LLM para contar, resumir o analizar, estamos intercambiando la certeza mecánica del código tradicional por la intuición ágil de las redes neuronales.

Para el usuario común, la conclusión es pragmática: no asuma que la fluidez de un modelo es un sustituto de su capacidad numérica. La próxima vez que pida a una IA que le ayude con una tarea pesada en datos, busque el "andamiaje". ¿Muestra el modelo su trabajo? ¿Proporciona un registro de sus pasos? Si no lo hace, está ante una caja negra que podría estar inventando los números solo para mantener la conversación fluida.

A medida que navegamos por este cambio silencioso en el diseño de software, la habilidad más importante que podemos desarrollar es un "ojo de UX" para la transparencia. Debemos exigir herramientas que no solo nos den la respuesta, sino que proporcionen el rastro de auditoría necesario para probarla. En un mundo de alucinaciones armónicas, la característica más disruptiva que puede ofrecer una pieza de software es la simple y humilde verdad de un registro verificable.

Fuentes:

  • Hasegawa, H., & Kamogawa (2026). KIS: A Question-Centric Protocol Architecture for Hierarchical AI Thought Control. Zenodo.
  • Huang et al. (2024). A Survey on Hallucination in Large Language Models. ACM TOIS.
  • Meincke & Mollick (2025). The Decreasing Value of Chain of Thought in Prompting. Wharton School Research Paper.
  • Zhao et al. (2025). NumericBench: Exposing Numeracy Gaps in Large Language Models. arXiv pre-print.
  • Mirairzu Lab Kobo (2026). Quantitative Analysis of Hallucination Bias in LLM Counting Tasks.
bg
bg
bg

Nos vemos en el otro lado.

Nuestra solución de correo electrónico cifrado y almacenamiento en la nube de extremo a extremo proporciona los medios más potentes para el intercambio seguro de datos, lo que garantiza la seguridad y la privacidad de sus datos.

/ Crear una cuenta gratuita