Mākslīgais intelekts

Kāpēc jūsu MI spēj uzrakstīt romānu, bet joprojām nespēj saskaitīt līdz piecdesmit

Uzziniet, kā KIS protokols novērš MI halucinācijas skaitīšanas uzdevumos, pārvēršot necaurredzamas LLM izvades caurspīdīgās, auditējamās datu pēdās.
Rahul Mehta
Rahul Mehta
2026. gada 26. aprīlis
Kāpēc jūsu MI spēj uzrakstīt romānu, bet joprojām nespēj saskaitīt līdz piecdesmit

Mēs šobrīd piedzīvojam dīvainu tehnoloģisko paradoksu. Mēs esam radījuši mašīnas, kas spēj nokārtot advokāta eksāmenu, diagnosticēt retas medicīniskas saslimšanas un dažu sekunžu laikā pārveidot tūkstošiem rindu mantotā koda — tomēr šie paši digitālie titāni bieži paklūp pie vienkāršā uzdevuma saskaitīt vārdu sarakstu. Ja lūgsiet modernam lielajam valodas modelim (LLM) apkopot tūkstoš rindu aptaujas atbilžu izklājlapu, tas varētu sniegt izcili ieskatāmu tematisko analīzi, vienlaikus halucinējot par faktisko respondentu skaitu.

Tas nav tikai neliels misēklis sistēmā; tas ir fundamentāls logs uz to, kā mūsdienu programmatūras arhitektūra ir novirzījusies no pagātnes stingrās noteiktības uz plūstošu, probabilistisku nākotni. Zem pārsega veids, kā MI "skaita", radikāli atšķiras no tā, kā to dara tradicionāla datubāze vai cilvēka smadzenes. Šī plaisa starp mūsu cerībām un modeļa veiktspēju ir radījusi jaunu pētniecības jomu: halucināciju kvantitatīvo analīzi datu apstrādes uzdevumos.

Skaitīšanas maldinošais vienkāršums

Ikdienas izteiksmē skaitīšana šķiet visvienkāršākā digitālā darba vienība. Mēs pieņemam — tā kā dators savā būtībā ir cildināts kalkulators, skaitliskā precizitāte ir pašsaprotama. Tomēr LLM nav kalkulatori; tie ir sarežģīti prognozēšanas dzinēji. Kad jūs sniedzat tādam modelim kā Gemini 3 Flash vai GPT-5.3 Instant garu sarakstu ar "Jā/Nē/Gaida" atbildēm un lūdzat kopsummu, modelis nevis vienkārši palielina mainīgo ciklā, bet gan apstrādā visu tekstu caur uzmanības mehānismu, mēģinot saglabāt skaitīšanas "stāvokli" savos iekšējos neironu ceļos.

Lietotāja skatījumā šī pieredze bieži vien ir sarūgtinoša. Jūs varētu pamanīt, ka jūsu MI asistents pareizi saskaita pirmās dažas rindas, bet zaudē pavedienu ap 400. rindu. To pētnieki sauc par iekšējās uzmanības ierobežojumu. Paradoksāli, bet, jo sarunvalodīgāks un "cilvēcīgāks" kļūst modelis, jo vairāk tas šķiet pakļauts tiem pašiem kognitīvajiem traucējumiem, ko mēs piedzīvojam, mēģinot saskaitīt monētu burku, kamēr kāds cits mums kliedz virsū nejaušus skaitļus.

Jauna taksonomija: trīs halucināciju sejas

Nesenais izpētes darbs, ko veica Mirairzu Lab Kobo, ir identificējis aizraujošu maiņu tajā, kā dažādi modeļi cieš neveiksmi šajos uzdevumos. Izrādās, ka LLM ne tikai "pieļauj kļūdas"; tie izrāda atšķirīgus uzvedības modeļus, kas atspoguļo dažāda veida programmatūras berzi.

Pirmkārt, ir konfabulācijas tips, ko spilgti parāda Gemini 3 Flash. Bāzes līnijas testos Gemini uzrādīja to, ko pētnieki dēvē par "harmonisko halucināciju". Tas varētu pārsniegt vienas kategorijas skaitu, vienlaikus samazinot citas, nodrošinot, ka galīgā kopsumma paliek matemātiski perfekta, pat ja sadalījums ir pilnīgs izdomājums. Vienlaikus mēs redzam izvairīšanās tipu tādos modeļos kā GPT-5.3 Instant — kur programmatūra vienkārši padodas, tiklīdz apstrādes slodze pārsniedz noteiktu slieksni, atgriežot pieklājīgu ziņojumu "Es nevaru saskaitīt tik daudz vienumu".

Visbeidzot, ir procesa necaurredzamības tips, kas bieži novērots Claude Sonnet 4.6. Claude ir ievērojami precīzs pat līdz 2000 vienumiem, taču tā metodoloģija paliek "melnā kaste". No izstrādātāja viedokļa tas ir abpusēji griezīgs zobens: jūs saņemat pareizo atbildi, taču jums nav iespējas uzzināt, kad vai kāpēc modelis galu galā sasniegs savu "sabrukuma punktu".

Halucināciju tips Modeļa piemērs Galvenais simptoms
Konfabulācija Gemini 3 Flash Izdomā datus, lai tie atbilstu statistiski ticamai kopsummai.
Izvairīšanās GPT-5.3 Instant Atsakās vai pārtrauc uzdevumu, pieaugot sarežģītībai.
Procesa necaurredzamība Claude 4.6 Augsta precizitāte, bet nesniedz loģikas audita pēdas.

Tradicionālo uzvedņu neveiksme

Vēsturiski tehnoloģiju nozares atbilde uz MI neprecizitāti ir bijusi "domu ķēdes" (CoT) uzvednes — vienkārša instrukcija "domāt soli pa solim". Taču, programmatūrai kļūstot sarežģītākai, šis kādreiz visuresošais risinājums uzrāda tehniskā parāda pazīmes.

Mirairzu Lab eksperimentos CoT piemērošana tikai ChatGPT faktiski izrādījās neproduktīva. Kad modelim lūdza izklāstīt savu pamatojumu 200 vienumu datu kopai, tā precizitāte patiesībā samazinājās. Papildu vārdi, kas tam bija jāģenerē, darbojās kā apstrādes troksnis, novēršot modeļa uzmanību no galvenā uzdevuma. Tas saskan ar jaunākajiem nozares atklājumiem, kas liecina, ka jaunākās paaudzes spriešanas modeļiem norādījumi par to, kā domāt, dažkārt var būt tikpat traucējoši kā aizmugurējā sēdeklī sēdošs vadītājs, kurš kliedz norādes profesionālam sacīkšu braucējam.

Ārējās sastatnes: KIS protokola izstrāde

Ja vienkāršas uzvednes neizdodas, nozare pāriet uz robustākiem, patentētiem protokoliem. Viens no šādiem ietvariem ir Zināšanu inovāciju sistēma (KIS), kas darbojas kā MI "ārējās sastatnes". Tā vietā, lai paļautos uz modeļa iekšējo atmiņu, KIS spiež MI ārēji fiksēt savus starpposmus strukturētā žurnālā.

Būtībā KIS uztver LLM kā komponentu lielākā mašīnā, nevis kā visu zinošu orākulu. Ieviešot tādu protokolu kā "4. līmenis / Loģika: Stingra", sistēma nodalīs skaitīšanas fāzi, pārbaudes fāzi un ziņošanas fāzi. Šis strukturālais ierobežojums darbojas kā digitāls projekts, nodrošinot, ka modelis nevar pāriet uz nākamo soli, kamēr tas nav pārbaudījis iepriekšējo.

Aiz ekrāna šī pieeja atrisina "harmoniskās halucinācijas" problēmu. Kad Gemini tika palaists caur KIS protokolu, tā precizitāte pieauga līdz 100% visās jomās. Modelim nebija atļauts vienkārši uzminēt ticamu sadalījumu; tas bija spiests sniegt "log: full" izvadi, kas kalpoja kā pārbaudāma audita pēda.

No precizitātes uz auditējamību: paradigmas maiņa

Raugoties nozares līmenī, šis pētījums izceļ pamatīgas izmaiņas tajā, kā mēs vērtējam programmatūru. Gadiem ilgi zelta standarts ir bijis precizitāte — vai lietotne sniedza man pareizo atbildi? Taču, integrējot MI juridiskajās, finanšu un medicīnas darba plūsmās, ar precizitāti vien vairs nepietiek. Mēs ieejam auditējamības laikmetā.

Kā liecina Claude sniegums, modelis, kas ir "parasti pareizs", ir risks, ja jūs nezināt, kāpēc tas ir pareizs. Ja cilvēka auditors nevar izsekot ceļam no neapstrādātiem datiem līdz galīgajai kopsummai, programmatūra joprojām rada risku. Tādi protokoli kā KIS pārstāv nākamo tīmekļa posmu: pāreju no sadrumstalotām, uz "sajūtām balstītām" agrīno tērzēšanas robotu izvadēm uz izturīgāku, pārredzamāku arhitektūru, kur process ir tikpat svarīgs kā rezultāts.

Digitālā projekta atgūšana

Galu galā mūsu attiecības ar tehnoloģijām nosaka tas, cik lielu daļu no "kā tas darbojas" mēs esam gatavi uzticēt citiem. Kad mēs izmantojam LLM, lai skaitītu, apkopotu vai analizētu, mēs mainām tradicionālā koda mehānisko noteiktību pret neironu tīklu veiklo intuīciju.

Parastam lietotājam secinājums ir pragmatisks: nepieņemiet, ka modeļa runas plūstamība ir tā skaitļošanas spēju mēraukla. Nākamreiz, ka lūgsiet MI palīdzību datu ietilpīgā uzdevumā, meklējiet "sastatnes". Vai modelis parāda savu darba gaitu? Vai tas sniedz savu darbību žurnālu? Ja nē, jūs skatāties uz melno kasti, kas varētu izdomāt skaitļus tikai tāpēc, lai turpinātu sarunu.

Navigējot šajās klusajās pārmaiņās programmatūras dizainā, vissvarīgākā prasme, ko mēs varam attīstīt, ir "UX acs" uz caurspīdīgumu. Mums būtu jāpieprasa rīki, kas ne tikai sniedz atbildi, bet arī nodrošina audita pēdas, kas nepieciešamas tās pierādīšanai. Harmonisko halucināciju pasaulē visvairāk traucējošā funkcija, ko programmatūra var piedāvāt, ir vienkāršā, pazemīgā patiesība par pārbaudāmu žurnālu.

Avoti:

  • Hasegawa, H., & Kamogawa (2026). KIS: A Question-Centric Protocol Architecture for Hierarchical AI Thought Control. Zenodo.
  • Huang et al. (2024). A Survey on Hallucination in Large Language Models. ACM TOIS.
  • Meincke & Mollick (2025). The Decreasing Value of Chain of Thought in Prompting. Wharton School Research Paper.
  • Zhao et al. (2025). NumericBench: Exposing Numeracy Gaps in Large Language Models. arXiv pre-print.
  • Mirairzu Lab Kobo (2026). Quantitative Analysis of Hallucination Bias in LLM Counting Tasks.
bg
bg
bg

Uz tikšanos otrā pusē.

Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.

/ Izveidot bezmaksas kontu