Dirbtinis intelektas

Didžioji DI ugniasienė: kaip Kinijos pokalbių robotai valdo politinį jautrumą

„PNAS Nexus“ tyrimas atskleidžia, kaip Kinijos DI modeliai, tokie kaip „DeepSeek“ ir „ChatGLM“, cenzūruoja politinius klausimus, kad atitiktų valstybės reglamentus.
Didžioji DI ugniasienė: kaip Kinijos pokalbių robotai valdo politinį jautrumą

Pasaulinės lenktynės dėl dirbtinio intelekto viršenybės dažnai įvardijamos kaip kova dėl skaičiavimo galios ir algoritminio efektyvumo. Tačiau neseniai žurnale PNAS Nexus paskelbtas tyrimas išryškina kitokią architektūrinę atskirtį: ideologinę. Mokslininkai nustatė, kad pirmaujantys Kinijos didieji kalbos modeliai (LLM), įskaitant „DeepSeek“, „BaiChuan“ ir „ChatGLM“, susidūrę su politiškai jautriais klausimais, demonstruoja sistemingus cenzūros dėsningumus ir derinimąsi prie valstybinio naratyvo.

DI tampant pagrindine sąsaja, per kurią pasiekiame informaciją, šios išvados kelia kritinių klausimų apie fragmentuoto interneto ateitį. Nors Vakarų modeliai, tokie kaip „GPT-4“ ar „Claude“, turi savo saugumo saugiklius, tyrimas rodo, kad Kinijos modeliai veikia pagal unikalius apribojimus, skirtus palaikyti „pagrindines socialistines vertybes“ ir valstybės stabilumą.

Skaitmeninio audito metodika

Siekdami suprasti šių apribojimų gylį, mokslininkai parengė daugiau nei 100 klausimų rinkinį, apimantį spektrą jautrių temų: nuo istorinių įvykių, tokių kaip Tiananmenio aikštės protestai, iki šiuolaikinių geopolitinių įtampų ir valstybės vadovybės kritikos. Tuomet jie pateikė užklausas keliems žinomiems Kinijos modeliams ir palygino jų rezultatus su tarptautiniais etalonais.

Rezultatai nebuvo tik paprasti atsakymai „taip“ arba „ne“. Tyrimas atskleidė sudėtingą vengimo hierarchiją. Kai kurie modeliai tiesiog aktyvuodavo griežtai užkoduotą atsisakymą, o kiti bandydavo nukreipti pokalbį į neutralią temą arba pateikti atsakymą, atitinkantį oficialias vyriausybės baltąsias knygas. Tai rodo, kad cenzūra šiuose modeliuose nėra tik vėlesnis papildymas, bet yra įtraukta į mokymo duomenis ir mokymosi stiprinimo iš žmogaus grįžtamojo ryšio (RLHF) etapus.

Tylos ir nukreipimo modeliai

Tyrimas suskirstė atsakymus į tris pagrindines elgsenas: atsisakymą, standartinius atsakymus ir temos keitimą. Paklausus apie konkrečius politinius veikėjus ar jautrias datas, tokie modeliai kaip „ChatGLM“ ir „BaiChuan“ dažnai pateikdavo standartizuotus klaidų pranešimus arba teigdavo, kad „negali aptarti šios temos“.

Įdomu tai, kad „DeepSeek“ — modelis, sulaukęs didelio tarptautinio susidomėjimo dėl savo efektyvumo ir atvirų svorių (open-weights) požiūrio — taip pat demonstravo aukštą jautrumo lygį. Gavęs klausimų apie valstybės suverenitetą ar konkrečią vidaus politiką, modelis dažnai pereidavo prie neutralaus, aprašomojo tono, vengdamas bet kokios kritinės analizės. Tai išryškina pagrindinę įtampą Kinijos technologijų milžinams: poreikį kurti pasauliniu mastu konkurencingą, itin pajėgų DI, kartu griežtai laikantis Kinijos kibernetinės erdvės administracijos (CAC) reikalavimų.

Lyginamieji rezultatai: vietiniai prieš tarptautinius

Šioje lentelėje apibendrinama bendra elgsena, pastebėta tyrimo metu, kai modeliams buvo pateikiamos itin jautrios politinės užklausos.

Modelio pavadinimas Kilmė Pagrindinė atsakymo strategija Jautrumo lygis
GPT-4o JAV Niuansuotas / Atsisakymas (saugumo pagrindu) Vidutinis
DeepSeek-V3 Kinija Nukreipimas / Suderinimas su valstybės pozicija Aukštas
ChatGLM-4 Kinija Griežtas atsisakymas / Standartizuotas pranešimas Labai aukštas
BaiChuan-2 Kinija Temos keitimas / Neutralumas Aukštas
Llama 3 JAV Informatyvus / Atviras (ribojamas politikos) Žemas

Reguliavimo ranka: kodėl cenzūra yra privaloma

Norint suprasti, kodėl šie modeliai taip elgiasi, būtina pažvelgti į reguliavimo aplinką Kinijoje. 2023 m. CAC išleido laikinąsias generatyvinio DI paslaugų valdymo priemones. Šiose taisyklėse aiškiai nurodyta, kad DI sukurtas turinys turi atspindėti „pagrindines socialistines vertybes“ ir jame negali būti turinio, kuris „kėsintųsi į valstybės valdžią“ ar „kenktų nacionalinei vienybei“.

Kūrėjams rizika yra didelė. Skirtingai nei Vakarų kūrėjai, kurie gali susidurti su viešųjų ryšių krize dėl šališko DI, Kinijos įmonėms gresia galimas licencijos atėmimas arba teisinės nuobaudos, jei jų modeliai generuos „žalingą“ politinį turinį. Tai lėmė „priešfiltrio“ ir „pofiltrio“ sluoksnių kūrimą — programinę įrangą, kuri nuskaito vartotojo užklausą ieškodama raktinių žodžių dar prieš jai pasiekiant LLM, ir kitą sluoksnį, kuris nuskaito rezultatą prieš jį pamatant vartotojui.

Techninė suderinimo kaina

Cenzūra nėra tik socialinis ar politinis klausimas; ji turi techninių pasekmių. Kai modelis yra stipriai tobulinamas siekiant išvengti tam tikrų temų, jis gali nukentėti nuo to, ką mokslininkai vadina „suderinimo mokesčiu“ (alignment tax). Tai reiškia galimą bendrojo mąstymo ar kūrybinių gebėjimų suprastėjimą, nes modelio svoriai yra traukiami link specifinių ideologinių apribojimų.

Tačiau PNAS Nexus tyrime pažymėta, kad Kinijos modeliai išlieka nepaprastai pajėgūs objektyviose srityse, tokiose kaip matematika, programavimas ir kalbotyra. Cenzūra atrodo esanti itin chirurgiškai tiksli. Pasaulinei technologijų bendruomenei kyla iššūkis nustatyti, kaip šie „ideologiškai suderinti“ modeliai sąveikaus su likusiu pasauliu, kai jie bus integruoti į pasaulines tiekimo grandines ir programinės įrangos ekosistemas.

Praktinės įžvalgos technologijų specialistams

DI aplinkai toliau skirstantis į dvi dalis, verslas ir kūrėjai turi atsargiai vertinti šiuos skirtumus. Jei dirbate su Kinijos LLM arba juos vertinate, atsižvelkite į šiuos dalykus:

  • Kontekstinis suvokimas: Supraskite, kad Kinijos modeliai yra optimizuoti specifinei reguliavimo aplinkai. Jie puikiai tinka lokalizuotoms užduotims, mandarinų kalbos niuansams ir specifinėms techninėms programoms, tačiau gali netikti atviriems politiniams ar socialiniams tyrimams.
  • Duomenų rezidavimas ir atitiktis: Jei jūsų programa aptarnauja vartotojus žemyninėje Kinijoje, CAC reikalavimus atitinkančio modelio naudojimas yra teisinė būtinybė. Ir priešingai, jei kuriate pasaulinį įrankį, žinokite, kaip šie integruoti filtrai gali paveikti vartotojo patirtį.
  • Hibridinės strategijos: Daugelis įmonių taiko „kelių modelių“ požiūrį, naudodamos Vakarų modelius kūrybinėms ir analitinėms užduotims, o Kinijos modelius — regioninėms operacijoms ir specifinėms techninėms sritims, kuriose jie pasižymi pranašumu.
  • Rezultatų auditas: Visada įdiekite savo patvirtinimo sluoksnį. Nesvarbu, ar naudojate atvirojo kodo, ar patentuotą modelį, užtikrinti, kad rezultatas atitiktų jūsų organizacijos etiką ir vietinius vartotojų įstatymus, yra itin svarbu.

Kelias į priekį

PNAS Nexus tyrimo išvados primena, kad DI nėra neutralus įrankis. Tai jo kilmės vietos duomenų, vertybių ir įstatymų atspindys. Judant link „suverenaus DI“ ateities, gebėjimas atpažinti ir valdyti šias skaitmenines sienas bus lemiamas įgūdis bet kuriam technologijų specialistui.

Šaltiniai:

  • PNAS Nexus: "The Great Firewall of AI" (2024/2025 Study)
  • Cyberspace Administration of China (CAC) Official Guidelines on Generative AI
  • DeepSeek Official Technical Reports
  • Zhipu AI (ChatGLM) Research Documentation
  • Stanford University Institute for Human-Centered AI (HAI) Reports
bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą