Tehisintellekt

Miks teie tehisintellekt suudab kirjutada romaani, kuid jääb ikkagi hätta viiekümneni lugemisega

Uurige, kuidas KIS-protokoll surub alla tehisintellekti hallutsinatsioone loendamisülesannetes, muutes läbipaistmatud LLM-väljundid läbipaistvateks ja auditeeritavateks andmejälgedeks.
Rahul Mehta
Rahul Mehta
26. aprill 2026
Miks teie tehisintellekt suudab kirjutada romaani, kuid jääb ikkagi hätta viiekümneni lugemisega

Me elame praegu läbi kummalist tehnoloogilist paradoksi. Oleme ehitanud masinaid, mis suudavad läbida advokaadieksami, diagnoosida haruldasi haigusi ja refaktoreerida tuhandeid ridu pärandkoodi sekunditega — ometi komistavad need samad digitaalsed titaanid sageli lihtsa ülesande otsa, milleks on sõnaloendi kokkulugemine. Kui palute tipptasemel suurel keelemudelil (LLM) kokku võtta tuhanderealise küsitlusvastuste tabeli, võib see pakkuda hiilgavalt süvitsiminevat temaatilist analüüsi, hallutsinerides samal ajal vastajate tegelikku arvu.

See ei ole lihtsalt väike viga maatriksis; see on fundamentaalne aken sellesse, kuidas kaasaegne tarkvaraarhitektuur on nihkunud mineviku jäigast kindlusest voolava ja tõenäosusliku tuleviku suunas. Kapoti all on viis, kuidas tehisintellekt "loendab", radikaalselt erinev sellest, kuidas traditsiooniline andmebaas või inimese aju sama ülesannet täidab. See lõhe meie ootuste ja mudeli jõudluse vahel on sünnitanud uue uurimisvaldkonna: hallutsinatsioonide kvantitatiivne analüüs andmetöötlusülesannetes.

Loendamise petlik lihtsus

Igapäevaselt tundub loendamine digitaalse töö kõige põhilisema üksusena. Eeldame, et kuna arvuti on oma olemuselt ülistatud kalkulaator, on numbriline täpsus iseenesestmõistetav. Kuid LLM-id ei ole kalkulaatorid; need on keerukad ennustusmootorid. Kui annate mudelile nagu Gemini 3 Flash või GPT-5.3 Instant pika loendi "Jah/Ei/Ootel" vastustest ja küsite kogusummat, ei suurenda mudel lihtsalt tsüklis muutujat. See töötleb kogu teksti tähelepanumehhanismi (attention mechanism) kaudu, püüdes säilitada loendamise "olekut" oma sisemistes närviteedes.

Kasutaja vaatepunktist on see kogemus sageli masendav. Võite märgata, et teie tehisintellekti assistent saab esimestest ridadest õigesti aru, kuid kaotab järje 400. rea juures. See on see, mida teadlased nimetavad sisemise tähelepanu piiratuseks. Paradoksaalselt, mida vestluslikumaks ja "inimlikumaks" mudel muutub, seda altim tundub see olevat samadele kognitiivsetele eksimustele, mida kogeme siis, kui üritame lugeda mündipurki, samal ajal kui keegi karjub meile suvalisi numbreid.

Uus taksonoomia: hallutsinatsiooni kolm nägu

Mirairzu Lab Kobo hiljutine ettevalmistav uurimistöö on tuvastanud põneva nihke selles, kuidas erinevad mudelid neis ülesannetes ebaõnnestuvad. Selgub, et LLM-id ei tee lihtsalt "vigu"; neil esinevad selged käitumismustrid, mis peegeldavad erinevat tüüpi tarkvara hõõrdumist.

Esiteks on konfabulatsiooni tüüp, mida näitlikustab Gemini 3 Flash. Algtestides näitas Gemini seda, mida teadlased nimetavad "harmooniliseks hallutsinatsiooniks". See võib ühte kategooriat üle lugeda ja teist alla lugeda, tagades, et lõppsumma jääb matemaatiliselt täiuslikuks, isegi kui jaotus on täielik väljamõeldis. Samal ajal näeme vältimise tüüpi sellistes mudelites nagu GPT-5.3 Instant — kus tarkvara lihtsalt loobub, kui töötluskoormus ületab teatud künnise, väljastades viisaka teate: "Ma ei suuda nii palju üksusi kokku lugeda."

Lõpuks on protsessi-läbipaistmatu tüüp, mida nähakse sageli Claude Sonnet 4.6 puhul. Claude on märkimisväärselt täpne, isegi kuni 2000 üksuse puhul, kuid selle metoodika jääb "mustaks kastiks". Arendaja seisukohast on see kahe teraga mõõk: saate õige vastuse, kuid teil pole võimalust teada, millal või miks mudel lõpuks oma "kokkukukkumispunktini" jõuab.

Hallutsinatsiooni tüüp Mudeli näide Peamine sümptom
Konfabulatsioon Gemini 3 Flash Mõtleb välja andmeid, et sobituda statistiliselt usutava kogusummaga.
Vältimine GPT-5.3 Instant Keeldub ülesandest või katkestab selle, kui keerukus kasvab.
Protsessi-läbipaistmatu Claude 4.6 Väga täpne, kuid ei paku oma loogika kohta kontrolljälge.

Traditsioonilise viipamise ebaõnnestumine

Ajalooliselt on tehnoloogiasektori vastus tehisintellekti ebatäpsusele olnud "mõtteahela" (Chain-of-Thought, CoT) viipamine — lihtne juhis "mõtle samm-sammult". Kuid tarkvara keerukuse kasvades näitab see kunagi kõikjal levinud lahendus tehnilise võla märke.

Mirairzu Labi eksperimentides osutus ainult CoT rakendamine ChatGPT-le tegelikult vastupidist tulemust andvaks. Kui mudelil paluti kirja panna oma põhjendused 200-üksuselise andmestiku kohta, siis mudeli täpsus tegelikult langes. Lisasõnad, mida see pidi genereerima, toimisid töötlemismürana, juhtides mudeli tähelepanu põhiliselt ülesandelt kõrvale. See ühtib hiljutiste tööstusharu leidudega, mis viitavad sellele, et uusima põlvkonna arutlusmudelite puhul võib etteütlemine, kuidas mõelda, olla sama häiriv kui tagaistmel istuv kaasreisija, kes karjub juhiseid professionaalsele võidusõitjale.

Väline tugiraamistik: KIS-protokolli arendamine

Kui lihtne viipamine ebaõnnestub, liigub tööstus tugevamate, patenteeritud protokollide poole. Üks selline raamistik on Knowledge Innovation System (KIS), mis toimib tehisintellekti "välise tugiraamistikuna". Selle asemel, et toetuda mudeli sisemisele mälule, sunnib KIS tehisintellekti oma vahesammud struktureeritud logisse väljastama.

Sisuliselt käsitleb KIS LLM-i kui komponenti suuremas masinas, mitte kui kõikteadvat oraaklit. Jõustades protokolli nagu "Tase 4 / Loogika: Range", eraldab süsteem loendamise faasi, kontrollimise faasi ja aruandluse faasi. See struktuurne piirang toimib nagu digitaalne projekt, tagades, et mudel ei saa liikuda järgmise sammu juurde enne, kui on eelmise kinnitanud.

Ekraani taga lahendab see lähenemisviis "harmoonilise hallutsinatsiooni" probleemi. Kui Gemini pandi tööle läbi KIS-protokolli, hüppas selle täpsus igal pool 100%-ni. Mudelil ei lubatud lihtsalt arvata usutavat jaotust; see oli sunnitud esitama "log: full" väljundi, mis toimis kontrollitava auditeerimisjäljena.

Täpsusest auditeeritavuseni: paradigmamuutus

Vaadates asja laiemalt tööstuse tasandil, tõstab see uurimistöö esile sügava nihke selles, kuidas me tarkvara hindame. Aastaid on kuldstandardiks olnud täpsus — kas rakendus andis mulle õige vastuse? Kuid kui integreerime tehisintellekti õigus-, finants- ja meditsiinilistesse töövoogudesse, ei piisa enam ainult täpsusest. Oleme sisenemas auditeeritavuse ajastusse.

Nagu Claude'i sooritus illustreerib, on "tavaliselt õige" mudel riskifaktor, kui te ei tea, miks see on õige. Kui inimestest audiitor ei saa jälgida teed toorandmetest lõppsummani, jääb tarkvara riskiks. Protokollid nagu KIS esindavad veebi järgmist etappi: liikumist varajaste juturotite fragmentaarsetelt, "tunnetuspõhistelt" väljunditelt vastupidavama ja läbipaistvama arhitektuuri poole, kus protsess on sama oluline kui tulemus.

Digitaalse kavandi tagasinõudmine

Lõppkokkuvõttes määratleb meie suhte tehnoloogiaga see, kui palju me oleme nõus "kuidas see töötab" osast väljast tellima. Kui kasutame LLM-i loendamiseks, kokkuvõtete tegemiseks või analüüsimiseks, vahetame traditsioonilise koodi mehaanilise kindluse närvivõrkude agiilse intuitsiooni vastu.

Tavakasutaja jaoks on järeldus pragmaatiline: ärge eeldage, et mudeli soravus tähendab selle arvutamisoskust. Järgmine kord, kui palute tehisintellektil end andmemahuka ülesandega aidata, otsige "tugiraamistikku". Kas mudel näitab oma töökäiku? Kas see esitab oma sammude logi? Kui ei, siis vaatate musta kasti, mis võib numbreid lihtsalt välja mõelda, et vestlust üleval hoida.

Navigeerides selles vaikses nihkes tarkvaradisainis, on kõige olulisem oskus, mida saame arendada, "UX-silm" läbipaistvuse suhtes. Me peaksime nõudma tööriistu, mis ei anna meile lihtsalt vastust, vaid pakuvad selle tõestamiseks vajalikku kontrolljälge. Harmooniliste hallutsinatsioonide maailmas on kõige murrangulisem funktsioon, mida üks tarkvara pakkuda saab, lihtne ja tagasihoidlik tõde kontrollitava logi näol.

Allikad:

  • Hasegawa, H., & Kamogawa (2026). KIS: A Question-Centric Protocol Architecture for Hierarchical AI Thought Control. Zenodo.
  • Huang et al. (2024). A Survey on Hallucination in Large Language Models. ACM TOIS.
  • Meincke & Mollick (2025). The Decreasing Value of Chain of Thought in Prompting. Wharton School Research Paper.
  • Zhao et al. (2025). NumericBench: Exposing Numeracy Gaps in Large Language Models. arXiv pre-print.
  • Mirairzu Lab Kobo (2026). Quantitative Analysis of Hallucination Bias in LLM Counting Tasks.
bg
bg
bg

Kohtumiseni teisel poolel.

Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.

/ Tasuta konto loomin