Dirbtinis intelektas

Kodėl jūsų DI gali parašyti romaną, bet vis dar sunkiai suskaičiuoja iki penkiasdešimties

Sužinokite, kaip KIS protokolas slopina DI haliucinacijas skaičiavimo užduotyse, paversdamas neaiškias LLM išvestis skaidriais, audituojamais duomenų pėdsakais.

Rahul Mehta

Privatumo ir skaitmeninių teisių korespondentas

2026 m. balandžio 26 d.

Kodėl jūsų DI gali parašyti romaną, bet vis dar sunkiai suskaičiuoja iki penkiasdešimties

Šiuo metu išgyvename keistą technologinį paradoksą. Sukūrėme mašinas, gebančias išlaikyti advokatūros egzaminą, diagnozuoti retas medicinines būkles ir per kelias sekundes pertvarkyti tūkstančius eilučių pasenusio kodo, tačiau šie patys skaitmeniniai titanai dažnai suklumpa atlikdami paprastą užduotį – skaičiuodami žodžių sąrašą. Jei paprašytumėte pažangiausio didžiojo kalbos modelio (LLM) apibendrinti tūkstančio eilučių apklausos atsakymų skaičiuoklę, jis gali pateikti genialiai įžvalgią teminę analizę, tuo pat metu haliucinuodamas tikrąjį respondentų skaičių.

Tai nėra tik nedidelis sistemos sutrikimas; tai esminis langas į tai, kaip šiuolaikinė programinės įrangos architektūra nutolo nuo griežto praeities tikrumo link takios, tikimybinės ateities. Žvelgiant giliau, būdas, kuriuo DI „skaičiuoja“, iš esmės skiriasi nuo to, kaip tą pačią užduotį atlieka tradicinė duomenų bazė ar žmogaus smegenys. Šis atotrūkis tarp mūsų lūkesčių ir modelio našumo davė pradžią naujai studijų sričiai: kiekybinei haliucinacijų analizei duomenų apdorojimo užduotyse.

Apgaulingas skaičiavimo paprastumas

Kasdienėje kalboje skaičiavimas atrodo kaip pagrindinis skaitmeninio darbo vienetas. Mes darome prielaidą, kad kadangi kompiuteris iš esmės yra sudėtingas skaičiuotuvas, skaitinis tikslumas yra savaime suprantamas dalykas. Tačiau LLM nėra skaičiuotuvai; tai sudėtingi prognozavimo varikliai. Kai pateikiate tokiam modeliui kaip „Gemini 3 Flash“ arba „GPT-5.3 Instant“ ilgą „Taip/Ne/Laukiama“ atsakymų sąrašą ir paprašote bendros sumos, modelis ne tiesiog padidina kintamąjį cikle. Jis apdoroja visą tekstą per dėmesio mechanizmą (angl. attention mechanism), bandydamas išlaikyti skaičiavimo „būseną“ savo vidiniuose neuroniniuose takuose.

Vartotojo akimis ši patirtis dažnai būna nuvilianti. Galite pastebėti, kad jūsų DI asistentas teisingai suskaičiuoja pirmąsias kelias eilutes, bet pameta skaičių ties 400-ąja eilute. Tai tyrėjai vadina vidiniu dėmesio apribojimu. Paradoksalu, bet kuo šnekesnis ir „žmogiškesnis“ tampa modelis, tuo labiau jis atrodo linkęs į tuos pačius kognityvinius klystkelius, kuriuos patiriame mes, bandydami suskaičiuoti monetų stiklainį, kai kas nors šaukia atsitiktinius skaičius.

Nauja taksonomija: trys haliucinacijų veidai

Neseniai „Mirairzu Lab Kobo“ atlikti tiriamieji tyrimai atskleidė žavingą poslinkį tame, kaip skirtingi modeliai klysta atlikdami šias užduotis. Paaiškėjo, kad LLM ne tik „daro klaidas“; jie demonstruoja skirtingus elgsenos modelius, kurie atspindi įvairių tipų programinės įrangos trintį.

Pirma, yra Konfabuliacijos tipas, kurį reprezentuoja „Gemini 3 Flash“. Baziniuose testuose „Gemini“ demonstravo tai, ką tyrėjai vadina „harmoninga haliucinacija“. Modelis gali per daug suskaičiuoti vieną kategoriją ir per mažai kitą, užtikrindamas, kad galutinė suma išliktų matematiškai tobula, net jei pasiskirstymas yra visiškas pramanas. Tuo pat metu matome Vengimo tipą tokiuose modeliuose kaip „GPT-5.3 Instant“ – čia programinė įranga tiesiog pasiduoda, kai apdorojimo krūvis viršija tam tikrą ribą, pateikdama mandagų pranešimą: „Negaliu suskaičiuoti tiek daug elementų“.

Galiausiai yra Neskaidraus proceso tipas, dažnai matomas „Claude Sonnet 4.6“. „Claude“ yra stebėtinai tikslus net iki 2 000 elementų, tačiau jo metodika išlieka „juodoji dėžė“. Kūrėjo požiūriu tai yra dviašmenis kalavijas: gaunate teisingą atsakymą, bet neturite galimybės sužinoti, kada ar kodėl modelis galiausiai pasieks savo „lūžio tašką“.

Haliucinacijos tipas	Modelio pavyzdys	Pagrindinis simptomas
Konfabuliacija	Gemini 3 Flash	Sukuria duomenis, kad jie atitiktų statistiškai tikėtiną sumą.
Vengimas	GPT-5.3 Instant	Atsisako arba nutraukia užduotį padidėjus sudėtingumui.
Neskaidrus procesas	Claude 4.6	Labai tikslus, bet nepateikia savo logikos audito sekos.

Tradicinių užklausų nesėkmė

Istoriškai technologijų pramonės atsakymas į DI netikslumą buvo „minčių grandinės“ (angl. Chain-of-Thought, CoT) užklausos – paprasta instrukcija „galvoti žingsnis po žingsnio“. Tačiau programinei įrangai sudėtingėjant, šis kažkada visur buvęs sprendimas rodo techninės skolos požymius.

„Mirairzu Lab“ eksperimentuose vien tik CoT taikymas „ChatGPT“ modeliui iš tikrųjų davė priešingų rezultatų. Paprašius aprašyti savo samprotavimus apie 200 elementų duomenų rinkinį, modelio tikslumas iš tikrųjų sumažėjo. Papildomi žodžiai, kuriuos jis turėjo sugeneruoti, veikė kaip apdorojimo triukšmas, atitraukiantis modelį nuo pagrindinės užduoties. Tai sutampa su naujausiomis pramonės išvadomis, rodančiomis, kad naujausios kartos samprotavimo modeliams nurodymas, kaip galvoti, kartais gali būti toks pat trikdantis, kaip ir keleivio šūkavimai profesionaliam lenktynininkui.

Išoriniai pastoliai: KIS protokolo inžinerija

Jei paprastos užklausos nepadeda, pramonė pereina prie tvirtesnių, nuosavų protokolų. Viena iš tokių sistemų yra Žinių inovacijų sistema (angl. Knowledge Innovation System, KIS), kuri veikia kaip DI „išoriniai pastoliai“. Užuot pasikliovusi modelio vidine atmintimi, KIS verčia DI perkelti savo tarpinius žingsnius į struktūrizuotą žurnalą.

Iš esmės KIS vertina LLM kaip didesnės mašinos komponentą, o ne kaip visažinį orakulą. Įgyvendinant protokolą, pavyzdžiui, „4 lygis / Logika: Griežta“, sistema atskiria skaičiavimo fazę, patikros fazę ir ataskaitų teikimo fazę. Šis struktūrinis apribojimas veikia kaip skaitmeninis brėžinys, užtikrinantis, kad modelis negali pereiti prie kito žingsnio, kol nepatvirtino ankstesnio.

Už ekrano šis požiūris išsprendžia „harmoningos haliucinacijos“ problemą. Kai „Gemini“ buvo paleistas per KIS protokolą, jo tikslumas visose srityse šoktelėjo iki 100 %. Modeliui nebuvo leista tiesiog spėti tikėtino pasiskirstymo; jis buvo priverstas pateikti „log: full“ išvestį, kuri tarnavo kaip patikrinama audito seka.

Nuo tikslumo prie audituojamumo: paradigmų kaita

Žvelgiant pramonės lygmeniu, šis tyrimas pabrėžia esminį pokytį tame, kaip vertiname programinę įrangą. Metų metus aukso standartas buvo tikslumas – ar programėlė pateikė man teisingą atsakymą? Tačiau integruojant DI į teisinius, finansinius ir medicininius procesus, vien tikslumo nebeužtenka. Žengiame į audituojamumo erą.

Kaip iliustruoja „Claude“ rezultatai, turėti modelį, kuris yra „dažniausiai teisus“, yra rizika, jei nežinote, kodėl jis teisus. Jei žmogus auditorius negali atsekti kelio nuo neapdorotų duomenų iki galutinės sumos, programinė įranga išlieka rizikinga. Tokie protokolai kaip KIS reprezentuoja kitą interneto etapą: perėjimą nuo fragmentuotų, „nuojauta pagrįstų“ ankstyvųjų pokalbių robotų rezultatų prie atsparesnės, skaidrios architektūros, kurioje procesas yra toks pat svarbus kaip ir rezultatas.

Skaitmeninio brėžinio susigrąžinimas

Galiausiai mūsų santykį su technologijomis apibrėžia tai, kiek „kaip tai veikia“ dalies esame pasirengę patikėti kitiems. Kai naudojame LLM skaičiavimui, apibendrinimui ar analizei, mes iškeičiame mechaninį tradicinio kodo tikrumą į lanksčią neuroninių tinklų intuiciją.

Eiliniam vartotojui išvada yra pragmatiška: nemanykite, kad modelio sklandus kalbėjimas reiškia jo gebėjimą skaičiuoti. Kitą kartą, kai paprašysite DI padėti atlikti duomenų reikalaujančią užduotį, ieškokite „pastolių“. Ar modelis parodo savo darbą? Ar jis pateikia savo veiksmų žurnalą? Jei ne, žiūrite į juodąją dėžę, kuri gali tiesiog išgalvoti skaičius, kad palaikytų pokalbį.

Naršydami po šį tylų programinės įrangos kūrimo poslinkį, svarbiausias įgūdis, kurį galime išsiugdyti, yra „UX akis“ skaidrumui. Turėtume reikalauti įrankių, kurie ne tik pateikia atsakymą, bet ir suteikia audito seką, reikalingą jam įrodyti. Harmoningų haliucinacijų pasaulyje labiausiai griaunanti funkcija, kurią gali pasiūlyti programinė įranga, yra paprasta, nuolanki patikrinamo žurnalo tiesa.

Šaltiniai:

Hasegawa, H., & Kamogawa (2026). KIS: A Question-Centric Protocol Architecture for Hierarchical AI Thought Control. Zenodo.
Huang et al. (2024). A Survey on Hallucination in Large Language Models. ACM TOIS.
Meincke & Mollick (2025). The Decreasing Value of Chain of Thought in Prompting. Wharton School Research Paper.
Zhao et al. (2025). NumericBench: Exposing Numeracy Gaps in Large Language Models. arXiv pre-print.
Mirairzu Lab Kobo (2026). Quantitative Analysis of Hallucination Bias in LLM Counting Tasks.

#DIModeliųPalyginimas #LLMHaliucinacijos #SkaitmeninisRaštingumas #UžklausųInžinerija #ŽiniųInovacijųSistema

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą

Pasirinktiniai domenai

Iki 1 TB talpos saugykla

Išplėstinis bendrinimas

Galutinis šifravimas

Savaime susinaikinantys el. laiškai

Pasirinktiniai domenai

Iki 1 TB talpos saugykla

Išplėstinis bendrinimas

Galutinis šifravimas

Savaime susinaikinantys el. laiškai

Beeble Mail

Beeble Drive

Apie Beeble

Misija

Istorija

Premium

Bendrieji klausimai

Paaukoti

Kontaktai