Šiuo metu išgyvename keistą technologinį paradoksą. Sukūrėme mašinas, gebančias išlaikyti advokatūros egzaminą, diagnozuoti retas medicinines būkles ir per kelias sekundes pertvarkyti tūkstančius eilučių pasenusio kodo, tačiau šie patys skaitmeniniai titanai dažnai suklumpa atlikdami paprastą užduotį – skaičiuodami žodžių sąrašą. Jei paprašytumėte pažangiausio didžiojo kalbos modelio (LLM) apibendrinti tūkstančio eilučių apklausos atsakymų skaičiuoklę, jis gali pateikti genialiai įžvalgią teminę analizę, tuo pat metu haliucinuodamas tikrąjį respondentų skaičių.
Tai nėra tik nedidelis sistemos sutrikimas; tai esminis langas į tai, kaip šiuolaikinė programinės įrangos architektūra nutolo nuo griežto praeities tikrumo link takios, tikimybinės ateities. Žvelgiant giliau, būdas, kuriuo DI „skaičiuoja“, iš esmės skiriasi nuo to, kaip tą pačią užduotį atlieka tradicinė duomenų bazė ar žmogaus smegenys. Šis atotrūkis tarp mūsų lūkesčių ir modelio našumo davė pradžią naujai studijų sričiai: kiekybinei haliucinacijų analizei duomenų apdorojimo užduotyse.
Kasdienėje kalboje skaičiavimas atrodo kaip pagrindinis skaitmeninio darbo vienetas. Mes darome prielaidą, kad kadangi kompiuteris iš esmės yra sudėtingas skaičiuotuvas, skaitinis tikslumas yra savaime suprantamas dalykas. Tačiau LLM nėra skaičiuotuvai; tai sudėtingi prognozavimo varikliai. Kai pateikiate tokiam modeliui kaip „Gemini 3 Flash“ arba „GPT-5.3 Instant“ ilgą „Taip/Ne/Laukiama“ atsakymų sąrašą ir paprašote bendros sumos, modelis ne tiesiog padidina kintamąjį cikle. Jis apdoroja visą tekstą per dėmesio mechanizmą (angl. attention mechanism), bandydamas išlaikyti skaičiavimo „būseną“ savo vidiniuose neuroniniuose takuose.
Vartotojo akimis ši patirtis dažnai būna nuvilianti. Galite pastebėti, kad jūsų DI asistentas teisingai suskaičiuoja pirmąsias kelias eilutes, bet pameta skaičių ties 400-ąja eilute. Tai tyrėjai vadina vidiniu dėmesio apribojimu. Paradoksalu, bet kuo šnekesnis ir „žmogiškesnis“ tampa modelis, tuo labiau jis atrodo linkęs į tuos pačius kognityvinius klystkelius, kuriuos patiriame mes, bandydami suskaičiuoti monetų stiklainį, kai kas nors šaukia atsitiktinius skaičius.
Neseniai „Mirairzu Lab Kobo“ atlikti tiriamieji tyrimai atskleidė žavingą poslinkį tame, kaip skirtingi modeliai klysta atlikdami šias užduotis. Paaiškėjo, kad LLM ne tik „daro klaidas“; jie demonstruoja skirtingus elgsenos modelius, kurie atspindi įvairių tipų programinės įrangos trintį.
Pirma, yra Konfabuliacijos tipas, kurį reprezentuoja „Gemini 3 Flash“. Baziniuose testuose „Gemini“ demonstravo tai, ką tyrėjai vadina „harmoninga haliucinacija“. Modelis gali per daug suskaičiuoti vieną kategoriją ir per mažai kitą, užtikrindamas, kad galutinė suma išliktų matematiškai tobula, net jei pasiskirstymas yra visiškas pramanas. Tuo pat metu matome Vengimo tipą tokiuose modeliuose kaip „GPT-5.3 Instant“ – čia programinė įranga tiesiog pasiduoda, kai apdorojimo krūvis viršija tam tikrą ribą, pateikdama mandagų pranešimą: „Negaliu suskaičiuoti tiek daug elementų“.
Galiausiai yra Neskaidraus proceso tipas, dažnai matomas „Claude Sonnet 4.6“. „Claude“ yra stebėtinai tikslus net iki 2 000 elementų, tačiau jo metodika išlieka „juodoji dėžė“. Kūrėjo požiūriu tai yra dviašmenis kalavijas: gaunate teisingą atsakymą, bet neturite galimybės sužinoti, kada ar kodėl modelis galiausiai pasieks savo „lūžio tašką“.
| Haliucinacijos tipas | Modelio pavyzdys | Pagrindinis simptomas |
|---|---|---|
| Konfabuliacija | Gemini 3 Flash | Sukuria duomenis, kad jie atitiktų statistiškai tikėtiną sumą. |
| Vengimas | GPT-5.3 Instant | Atsisako arba nutraukia užduotį padidėjus sudėtingumui. |
| Neskaidrus procesas | Claude 4.6 | Labai tikslus, bet nepateikia savo logikos audito sekos. |
Istoriškai technologijų pramonės atsakymas į DI netikslumą buvo „minčių grandinės“ (angl. Chain-of-Thought, CoT) užklausos – paprasta instrukcija „galvoti žingsnis po žingsnio“. Tačiau programinei įrangai sudėtingėjant, šis kažkada visur buvęs sprendimas rodo techninės skolos požymius.
„Mirairzu Lab“ eksperimentuose vien tik CoT taikymas „ChatGPT“ modeliui iš tikrųjų davė priešingų rezultatų. Paprašius aprašyti savo samprotavimus apie 200 elementų duomenų rinkinį, modelio tikslumas iš tikrųjų sumažėjo. Papildomi žodžiai, kuriuos jis turėjo sugeneruoti, veikė kaip apdorojimo triukšmas, atitraukiantis modelį nuo pagrindinės užduoties. Tai sutampa su naujausiomis pramonės išvadomis, rodančiomis, kad naujausios kartos samprotavimo modeliams nurodymas, kaip galvoti, kartais gali būti toks pat trikdantis, kaip ir keleivio šūkavimai profesionaliam lenktynininkui.
Jei paprastos užklausos nepadeda, pramonė pereina prie tvirtesnių, nuosavų protokolų. Viena iš tokių sistemų yra Žinių inovacijų sistema (angl. Knowledge Innovation System, KIS), kuri veikia kaip DI „išoriniai pastoliai“. Užuot pasikliovusi modelio vidine atmintimi, KIS verčia DI perkelti savo tarpinius žingsnius į struktūrizuotą žurnalą.
Iš esmės KIS vertina LLM kaip didesnės mašinos komponentą, o ne kaip visažinį orakulą. Įgyvendinant protokolą, pavyzdžiui, „4 lygis / Logika: Griežta“, sistema atskiria skaičiavimo fazę, patikros fazę ir ataskaitų teikimo fazę. Šis struktūrinis apribojimas veikia kaip skaitmeninis brėžinys, užtikrinantis, kad modelis negali pereiti prie kito žingsnio, kol nepatvirtino ankstesnio.
Už ekrano šis požiūris išsprendžia „harmoningos haliucinacijos“ problemą. Kai „Gemini“ buvo paleistas per KIS protokolą, jo tikslumas visose srityse šoktelėjo iki 100 %. Modeliui nebuvo leista tiesiog spėti tikėtino pasiskirstymo; jis buvo priverstas pateikti „log: full“ išvestį, kuri tarnavo kaip patikrinama audito seka.
Žvelgiant pramonės lygmeniu, šis tyrimas pabrėžia esminį pokytį tame, kaip vertiname programinę įrangą. Metų metus aukso standartas buvo tikslumas – ar programėlė pateikė man teisingą atsakymą? Tačiau integruojant DI į teisinius, finansinius ir medicininius procesus, vien tikslumo nebeužtenka. Žengiame į audituojamumo erą.
Kaip iliustruoja „Claude“ rezultatai, turėti modelį, kuris yra „dažniausiai teisus“, yra rizika, jei nežinote, kodėl jis teisus. Jei žmogus auditorius negali atsekti kelio nuo neapdorotų duomenų iki galutinės sumos, programinė įranga išlieka rizikinga. Tokie protokolai kaip KIS reprezentuoja kitą interneto etapą: perėjimą nuo fragmentuotų, „nuojauta pagrįstų“ ankstyvųjų pokalbių robotų rezultatų prie atsparesnės, skaidrios architektūros, kurioje procesas yra toks pat svarbus kaip ir rezultatas.
Galiausiai mūsų santykį su technologijomis apibrėžia tai, kiek „kaip tai veikia“ dalies esame pasirengę patikėti kitiems. Kai naudojame LLM skaičiavimui, apibendrinimui ar analizei, mes iškeičiame mechaninį tradicinio kodo tikrumą į lanksčią neuroninių tinklų intuiciją.
Eiliniam vartotojui išvada yra pragmatiška: nemanykite, kad modelio sklandus kalbėjimas reiškia jo gebėjimą skaičiuoti. Kitą kartą, kai paprašysite DI padėti atlikti duomenų reikalaujančią užduotį, ieškokite „pastolių“. Ar modelis parodo savo darbą? Ar jis pateikia savo veiksmų žurnalą? Jei ne, žiūrite į juodąją dėžę, kuri gali tiesiog išgalvoti skaičius, kad palaikytų pokalbį.
Naršydami po šį tylų programinės įrangos kūrimo poslinkį, svarbiausias įgūdis, kurį galime išsiugdyti, yra „UX akis“ skaidrumui. Turėtume reikalauti įrankių, kurie ne tik pateikia atsakymą, bet ir suteikia audito seką, reikalingą jam įrodyti. Harmoningų haliucinacijų pasaulyje labiausiai griaunanti funkcija, kurią gali pasiūlyti programinė įranga, yra paprasta, nuolanki patikrinamo žurnalo tiesa.
Šaltiniai:



Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.
/ Sukurti nemokamą paskyrą