Nous vivons actuellement un paradoxe technologique étrange. Nous avons construit des machines capables de réussir l'examen du barreau, de diagnostiquer des maladies rares et de refactoriser des milliers de lignes de code hérité en quelques secondes — pourtant, ces mêmes titans numériques trébuchent souvent sur la tâche simple consistant à compter une liste de mots. Si vous demandez à un modèle de langage étendu (LLM) de pointe de résumer un tableur de mille lignes de réponses à un sondage, il pourrait fournir une analyse thématique brillamment perspicace tout en hallucinant simultanément le nombre réel de répondants.
Il ne s'agit pas seulement d'un bug mineur dans la matrice ; c'est une fenêtre fondamentale sur la façon dont l'architecture logicielle moderne s'est éloignée de la certitude rigide du passé pour s'orienter vers un futur fluide et probabiliste. Sous le capot, la manière dont une IA « compte » est radicalement différente de celle d'une base de données traditionnelle ou d'un cerveau humain effectuant la même tâche. Cet écart entre nos attentes et les performances du modèle a donné naissance à un nouveau champ d'étude : l'analyse quantitative de l'hallucination dans les tâches de traitement de données.
Au quotidien, compter semble être l'unité la plus basique du travail numérique. Nous supposons que parce qu'un ordinateur est, par essence, une calculatrice glorifiée, l'exactitude numérique est un acquis. Cependant, les LLM ne sont pas des calculatrices ; ce sont des moteurs de prédiction sophistiqués. Lorsque vous fournissez à un modèle comme Gemini 3 Flash ou GPT-5.3 Instant une longue liste de réponses « Oui/Non/En attente » et que vous demandez un total, le modèle ne se contente pas d'incrémenter une variable dans une boucle. Il traite l'intégralité du texte via un mécanisme d'attention, tentant de maintenir l'« état » du décompte à travers ses voies neuronales internes.
Du point de vue de l'utilisateur, l'expérience est souvent frustrante. Vous pourriez remarquer que votre assistant IA réussit les premières lignes, pour ensuite perdre le fil vers la ligne 400. C'est ce que les chercheurs appellent une limitation de l'attention interne. Paradoxalement, plus un modèle devient conversationnel et « humain », plus il semble sujet aux mêmes lapsus cognitifs que nous subissons en essayant de compter un bocal de pièces de monnaie pendant que quelqu'un nous crie des nombres aléatoires.
Des recherches exploratoires récentes menées par le Mirairzu Lab Kobo ont identifié un changement fascinant dans la manière dont les différents modèles échouent à ces tâches. Il s'avère que les LLM ne font pas simplement des « erreurs » ; ils présentent des schémas comportementaux distincts qui reflètent différents types de frictions logicielles.
Premièrement, il y a le Type Confabulation, illustré par Gemini 3 Flash. Dans les tests de référence (Baseline), Gemini a présenté ce que les chercheurs appellent une « hallucination harmonique ». Il peut surcompter une catégorie tout en sous-comptant une autre, garantissant que le total final reste mathématiquement parfait même si la distribution est une pure fabrication. Simultanément, nous observons le Type Évitement dans des modèles comme GPT-5.3 Instant — où le logiciel abandonne simplement une fois que la charge de traitement dépasse un certain seuil, renvoyant un message poli : « Je ne peux pas compter autant d'éléments ».
Enfin, il y a le Type Processus-Opaque, souvent observé chez Claude Sonnet 4.6. Claude est remarquablement précis, même jusqu'à 2 000 éléments, mais sa méthodologie reste une boîte noire. Du point de vue d'un développeur, c'est une épée à double tranchant : vous obtenez la bonne réponse, mais vous n'avez aucun moyen de savoir quand ou pourquoi le modèle finira par atteindre son « point d'effondrement ».
| Type d'hallucination | Exemple de modèle | Symptôme principal |
|---|---|---|
| Confabulation | Gemini 3 Flash | Fabrique des données pour correspondre à un total statistiquement plausible. |
| Évitement | GPT-5.3 Instant | Refuse ou abandonne la tâche lorsque la complexité augmente. |
| Processus-Opaque | Claude 4.6 | Très précis mais ne fournit aucune piste d'audit de sa logique. |
Historiquement, la réponse de l'industrie technologique à l'inexactitude de l'IA a été le prompt « Chaîne de pensée » (CoT) — l'instruction simple de « réfléchir étape par étape ». Mais à mesure que les logiciels gagnent en complexité, cette solution autrefois omniprésente montre des signes de dette technique.
Dans les expériences du Mirairzu Lab, l'application de la CoT seule à ChatGPT s'est avérée contre-productive. Lorsqu'on lui a demandé de rédiger son raisonnement pour un ensemble de données de 200 éléments, la précision du modèle a en réalité chuté. Les mots supplémentaires qu'il devait générer ont agi comme un bruit de traitement, distrayant le modèle de sa tâche principale. Cela concorde avec les conclusions récentes de l'industrie suggérant que pour la dernière génération de modèles de raisonnement, se faire dire comment penser peut parfois être aussi perturbateur qu'un passager criant des directions à un pilote de course professionnel.
Si le simple prompt échoue, l'industrie s'oriente vers des protocoles propriétaires plus robustes. L'un de ces cadres est le Knowledge Innovation System (KIS), qui agit comme un « échafaudage externe » pour l'IA. Au lieu de s'appuyer sur la mémoire interne du modèle, le KIS force l'IA à externaliser ses étapes intermédiaires dans un journal structuré.
Essentiellement, le KIS traite le LLM comme un composant d'une machine plus vaste plutôt que comme un oracle omniscient. En imposant un protocole tel que « Niveau 4 / Logique : Stricte », le système sépare la phase de comptage, la phase de vérification et la phase de rapport. Cette contrainte structurelle fonctionne comme un plan numérique, garantissant que le modèle ne peut passer à l'étape suivante tant qu'il n'a pas vérifié la précédente.
Derrière l'écran, cette approche résout le problème de l'« hallucination harmonique ». Lorsque Gemini a été soumis au protocole KIS, sa précision a bondi à 100 % sur toute la ligne. Le modèle n'était plus autorisé à deviner une distribution plausible ; il était contraint de fournir une sortie « log: full » servant de piste d'audit vérifiable.
En prenant du recul au niveau de l'industrie, cette recherche souligne un changement profond dans notre façon de juger les logiciels. Pendant des années, la norme de référence a été la précision — l'application m'a-t-elle donné la bonne réponse ? Mais alors que nous intégrons l'IA dans les flux de travail juridiques, financiers et médicaux, la précision seule ne suffit plus. Nous entrons dans l'ère de l'auditabilité.
Comme l'illustre la performance de Claude, avoir un modèle qui a « généralement raison » est un risque si vous ne savez pas pourquoi il a raison. Si un auditeur humain ne peut pas tracer le chemin des données brutes jusqu'au total final, le logiciel reste un risque. Les protocoles comme le KIS représentent la prochaine étape du web : un passage des sorties fragmentées et basées sur le « ressenti » des premiers chatbots vers une architecture plus résiliente et transparente où le processus est aussi important que le résultat.
En fin de compte, notre relation avec la technologie est définie par la part du « comment ça marche » que nous sommes prêts à externaliser. Lorsque nous utilisons un LLM pour compter, résumer ou analyser, nous échangeons la certitude mécanique du code traditionnel contre l'intuition agile des réseaux neuronaux.
Pour l'utilisateur ordinaire, la leçon est pragmatique : ne supposez pas que la fluidité d'un modèle est un indicateur de sa capacité numérique. La prochaine fois que vous demanderez à une IA de vous aider pour une tâche lourde en données, cherchez l'« échafaudage ». Le modèle montre-t-il son travail ? Fournit-il un journal de ses étapes ? Si ce n'est pas le cas, vous faites face à une boîte noire qui pourrait inventer des chiffres juste pour maintenir le flux de la conversation.
Alors que nous naviguons dans ce changement silencieux de la conception logicielle, la compétence la plus importante que nous puissions développer est un « œil UX » pour la transparence. Nous devrions exiger des outils qui ne se contentent pas de nous donner la réponse, mais fournissent la piste d'audit nécessaire pour la prouver. Dans un monde d'hallucinations harmoniques, la fonctionnalité la plus disruptive qu'un logiciel puisse offrir est la simple et humble vérité d'un journal vérifiable.
Sources :



Notre solution de messagerie cryptée de bout en bout et de stockage en nuage constitue le moyen le plus puissant d'échanger des données en toute sécurité, garantissant ainsi la sûreté et la confidentialité de vos données.
/ Créer un compte gratuit