Sztuczna inteligencja

Dlaczego Twoja SI potrafi napisać powieść, ale wciąż ma trudności z liczeniem do pięćdziesięciu

Dowiedz się, jak protokół KIS eliminuje halucynacje SI w zadaniach związanych z liczeniem, przekształcając nieprzejrzyste wyniki LLM w transparentne i audytowalne ścieżki danych.
Rahul Mehta
Rahul Mehta
26 kwietnia 2026
Dlaczego Twoja SI potrafi napisać powieść, ale wciąż ma trudności z liczeniem do pięćdziesięciu

Żyjemy obecnie w czasach dziwnego paradoksu technologicznego. Zbudowaliśmy maszyny zdolne do zdania egzaminu adwokackiego, diagnozowania rzadkich schorzeń i refaktoryzacji tysięcy linii starego kodu w kilka sekund — a jednak ci sami cyfrowi tytani często potykają się na prostym zadaniu policzenia listy słów. Jeśli poprosisz nowoczesny Duży Model Językowy (LLM) o podsumowanie arkusza kalkulacyjnego z tysiącem wierszy odpowiedzi z ankiety, może on przedstawić błyskotliwą i wnikliwą analizę tematyczną, jednocześnie halucynując na temat rzeczywistej liczby respondentów.

To nie jest tylko drobna usterka w matriksie; to fundamentalne okno na to, jak nowoczesna architektura oprogramowania odeszła od sztywnej pewności przeszłości w stronę płynnej, probabilistycznej przyszłości. Pod maską sposób, w jaki SI „liczy”, radykalnie różni się od sposobu, w jaki to samo zadanie wykonuje tradycyjna baza danych lub ludzki mózg. Ta luka między naszymi oczekiwaniami a wydajnością modelu dała początek nowej dziedzinie badań: analizie ilościowej halucynacji w zadaniach przetwarzania danych.

Złudna prostota liczenia

W codziennym rozumieniu liczenie wydaje się najbardziej podstawową jednostką pracy cyfrowej. Zakładamy, że skoro komputer jest w swej istocie ulepszonym kalkulatorem, dokładność numeryczna jest rzeczą oczywistą. Jednak modele LLM nie są kalkulatorami; są zaawansowanymi silnikami predykcyjnymi. Kiedy dostarczasz modelowi takiemu jak Gemini 3 Flash lub GPT-5.3 Instant długą listę odpowiedzi „Tak/Nie/W toku” i prosisz o podanie sumy, model nie zwiększa po prostu wartości zmiennej w pętli. Przetwarza on cały tekst poprzez mechanizm uwagi (attention mechanism), próbując utrzymać „stan” liczenia w swoich wewnętrznych ścieżkach neuronowych.

Z perspektywy użytkownika to doświadczenie jest często frustrujące. Możesz zauważyć, że Twój asystent SI poprawnie radzi sobie z kilkoma pierwszymi wierszami, by zgubić się około 400. wiersza. Jest to zjawisko, które badacze nazywają ograniczeniem uwagi wewnętrznej. Paradoksalnie, im bardziej konwersacyjny i „ludzki” staje się model, tym bardziej wydaje się podatny na te same błędy poznawcze, których doświadczamy, próbując policzyć słoik monet, gdy ktoś wykrzykuje obok nas losowe liczby.

Nowa taksonomia: Trzy oblicza halucynacji

Ostatnie badania eksploracyjne przeprowadzone przez Mirairzu Lab Kobo zidentyfikowały fascynującą zmianę w tym, jak różne modele zawodzą w tych zadaniach. Okazuje się, że modele LLM nie po prostu „popełniają błędy”; wykazują one wyraźne wzorce zachowań, które odzwierciedlają różne rodzaje tarcia w oprogramowaniu.

Po pierwsze, istnieje Typ Konfabulacyjny, którego przykładem jest Gemini 3 Flash. W testach bazowych Gemini wykazywał to, co badacze nazywają „halucynacją harmoniczną”. Może on zawyżyć jedną kategorię, jednocześnie zaniżając inną, dbając o to, by końcowa suma pozostała matematycznie idealna, nawet jeśli rozkład danych jest całkowitym zmyśleniem. Jednocześnie obserwujemy Typ Unikający w modelach takich jak GPT-5.3 Instant — gdzie oprogramowanie po prostu poddaje się, gdy obciążenie przetwarzaniem przekroczy określony próg, zwracając uprzejmy komunikat: „Nie mogę policzyć tak wielu elementów”.

Wreszcie istnieje Typ Nieprzejrzystego Procesu, często spotykany w modelu Claude Sonnet 4.6. Claude jest niezwykle dokładny, nawet do 2000 elementów, ale jego metodologia pozostaje czarną skrzynką. Z punktu widzenia programisty jest to miecz obosieczny: otrzymujesz poprawną odpowiedź, ale nie masz możliwości dowiedzenia się, kiedy i dlaczego model ostatecznie osiągnie swój „punkt załamania”.

Typ halucynacji Przykład modelu Główny symptom
Konfabulacja Gemini 3 Flash Fabrykuje dane, aby dopasować je do statystycznie prawdopodobnej sumy.
Unikanie GPT-5.3 Instant Odmawia wykonania lub porzuca zadanie, gdy wzrasta złożoność.
Nieprzejrzysty proces Claude 4.6 Wysoce dokładny, ale nie zapewnia ścieżki audytu swojej logiki.

Porażka tradycyjnego promptowania

Historycznie odpowiedzią branży technologicznej na niedokładność SI było promptowanie typu „Łańcuch Myśli” (Chain-of-Thought, CoT) — prosta instrukcja „myśl krok po kroku”. Jednak w miarę jak oprogramowanie staje się coraz bardziej złożone, to niegdyś wszechobecne rozwiązanie wykazuje oznaki długu technicznego.

W eksperymentach Mirairzu Lab samo zastosowanie CoT w przypadku ChatGPT okazało się kontrproduktywne. Gdy poproszono model o spisanie swojego rozumowania dla zbioru danych liczącego 200 elementów, jego dokładność faktycznie spadła. Dodatkowe słowa, które musiał wygenerować, zadziałały jak szum procesowy, odciągając model od głównego zadania. Jest to zgodne z ostatnimi odkryciami branżowymi sugerującymi, że w przypadku najnowszej generacji modeli rozumujących, instruowanie ich, jak mają myśleć, może być czasem tak rozpraszające, jak pasażer wykrzykujący wskazówki zawodowemu kierowcy wyścigowemu.

Zewnętrzne rusztowanie: Inżynieria protokołu KIS

Jeśli proste promptowanie zawodzi, branża przesuwa się w stronę bardziej solidnych, zastrzeżonych protokołów. Jednym z takich rozwiązań jest Knowledge Innovation System (KIS), który działa jako „zewnętrzne rusztowanie” dla SI. Zamiast polegać na wewnętrznej pamięci modelu, KIS zmusza SI do uzewnętrzniania kroków pośrednich w ustrukturyzowanym dzienniku.

Zasadniczo KIS traktuje LLM jako komponent w większej maszynie, a nie jako wszechwiedzącą wyrocznię. Poprzez wymuszenie protokołu takiego jak „Poziom 4 / Logika: Ścisła”, system oddziela fazę liczenia, fazę weryfikacji i fazę raportowania. To strukturalne ograniczenie działa jak cyfrowy plan budowy, zapewniając, że model nie może przejść do następnego kroku, dopóki nie zweryfikuje poprzedniego.

Za kulisami podejście to rozwiązuje problem „halucynacji harmonicznej”. Gdy Gemini został uruchomiony z wykorzystaniem protokołu KIS, jego dokładność wzrosła do 100% we wszystkich testach. Model nie mógł po prostu zgadnąć prawdopodobnego rozkładu; był zmuszony do dostarczenia danych wyjściowych typu „log: pełny”, które służyły jako weryfikowalna ścieżka audytu.

Od dokładności do audytowalności: Zmiana paradygmatu

Patrząc z perspektywy całej branży, badania te podkreślają głęboką zmianę w sposobie, w jaki oceniamy oprogramowanie. Przez lata złotym standardem była dokładność — czy aplikacja podała mi właściwą odpowiedź? Jednak w miarę jak integrujemy SI z procesami prawnymi, finansowymi i medycznymi, sama dokładność już nie wystarcza. Wchodzimy w erę audytowalności.

Jak ilustrują wyniki modelu Claude, posiadanie modelu, który „zazwyczaj ma rację”, jest obciążeniem, jeśli nie wiesz, dlaczego ma rację. Jeśli ludzki audytor nie może prześledzić ścieżki od surowych danych do końcowej sumy, oprogramowanie pozostaje ryzykiem. Protokoły takie jak KIS reprezentują kolejny etap sieci: odejście od fragmentarycznych wyników wczesnych chatbotów opartych na „wrażeniach” w stronę bardziej odpornej, przejrzystej architektury, w której proces jest tak samo ważny jak wynik.

Odzyskiwanie cyfrowego planu

Ostatecznie nasza relacja z technologią jest definiowana przez to, jak dużą część tego, „jak to działa”, jesteśmy gotowi wyoutsourcingować. Kiedy używamy LLM do liczenia, podsumowywania lub analizowania, wymieniamy mechaniczną pewność tradycyjnego kodu na zwinna intuicję sieci neuronowych.

Dla zwykłego użytkownika wniosek jest pragmatyczny: nie zakładaj, że biegłość językowa modelu jest tożsama z jego umiejętnościami matematycznymi. Następnym razem, gdy poprosisz SI o pomoc w zadaniu wymagającym dużej ilości danych, szukaj „rusztowania”. Czy model pokazuje swoją pracę? Czy dostarcza dziennik swoich kroków? Jeśli nie, patrzysz na czarną skrzynkę, która może zmyślać liczby tylko po to, by podtrzymać płynność rozmowy.

Nawigując w tej cichej zmianie w projektowaniu oprogramowania, najważniejszą umiejętnością, jaką możemy rozwinąć, jest „oko UX” na przejrzystość. Powinniśmy wymagać narzędzi, które nie tylko dają nam odpowiedź, ale zapewniają ścieżkę audytu niezbędną do jej udowodnienia. W świecie harmonicznych halucynacji najbardziej przełomową funkcją, jaką może zaoferować oprogramowanie, jest prosta, pokorna prawda weryfikowalnego dziennika.

Źródła:

  • Hasegawa, H., & Kamogawa (2026). KIS: A Question-Centric Protocol Architecture for Hierarchical AI Thought Control. Zenodo.
  • Huang et al. (2024). A Survey on Hallucination in Large Language Models. ACM TOIS.
  • Meincke & Mollick (2025). The Decreasing Value of Chain of Thought in Prompting. Wharton School Research Paper.
  • Zhao et al. (2025). NumericBench: Exposing Numeracy Gaps in Large Language Models. arXiv pre-print.
  • Mirairzu Lab Kobo (2026). Quantitative Analysis of Hallucination Bias in LLM Counting Tasks.
bg
bg
bg

Do zobaczenia po drugiej stronie.

Nasze kompleksowe, szyfrowane rozwiązanie do poczty e-mail i przechowywania danych w chmurze zapewnia najpotężniejsze środki bezpiecznej wymiany danych, zapewniając bezpieczeństwo i prywatność danych.

/ Utwórz bezpłatne konto