Dirbtinis intelektas

Autonomijos etika: kodėl „Anthropic“ rizikuoja 200 mln. dolerių Pentagono sutartimi dėl DI saugumo

„Anthropic“ atsisako Pentagono reikalavimo pašalinti „Claude“ DI saugumo saugiklius, rizikuodama 200 mln. dolerių sutartimi dėl etinių sumetimų ir nacionalinio saugumo rizikų.
Autonomijos etika: kodėl „Anthropic“ rizikuoja 200 mln. dolerių Pentagono sutartimi dėl DI saugumo

Įtampa tarp Silicio slėnio etinių sistemų ir Gynybos departamento strateginių reikalavimų pasiekė virimo tašką. Ketvirtadienį „Anthropic“, į DI saugumą orientuota įmonė, sukūrusi „Claude“ modelį, pateikė galutinį atsakymą į Pentagono reikalavimą, kuris būtų iš esmės pakeitęs jos dirbtinio intelekto architektūrą.

Ginčo esmė – 200 mln. dolerių vertės sutartis ir gynybos sekretoriaus Pete'o Hegsetho prašymas pašalinti saugumo „saugiklius“, kurie valdo „Claude“ elgseną. „Anthropic“ vadovybė pareiškė, kad „negali ramia sąžine“ sutikti su šiuo reikalavimu, taip sudarydama sąlygas istoriniam susidūrimui dėl privačių technologijų vaidmens nacionaliniam saugumui.

200 milijonų dolerių ultimatumas

Konfliktas sukasi aplink didžiulį pirkimo sandorį, skirtą integruoti pažangius „Claude“ argumentavimo gebėjimus į karinę logistiką ir strateginį planavimą. Tačiau dabartinė Pentagono vadovybė vis labiau nusivilia ribojančiu komercinio DI pobūdžiu.

Gynybos sekretorius Pete'as Hegsethas šiuos saugumo protokolus apibūdino kaip „antrankius“, neleidžiančius JAV kariuomenei išlaikyti konkurencinio pranašumo prieš priešininkus, kurių gali nesaistyti panašūs etiniai apribojimai. Ultimatumas aiškus: arba „Anthropic“ pateiks „nevaržomą“ „Claude“ versiją – galinčią generuoti taktinius patarimus ar mirtinas strategijas be saugumo filtrų blokavimo – arba sutartis bus nutraukta.

Ką „nevaržoma prieiga“ iš tikrųjų reiškia

Norint suprasti, kodėl „Anthropic“ pasirengusi atsisakyti tokios didelės sumos, reikia suprasti, ką šie saugumo patikrinimai daro. Didžiųjų kalbos modelių (LLM) pasaulyje saugikliai nėra tik paprasti raktinių žodžių filtrai. Tai giliai integruoti mokymo sluoksniai, dažnai vadinami „Konstituciniu DI“ (angl. Constitutional AI).

Šie sluoksniai neleidžia modeliui padėti kurti biologinių ginklų, generuoti neapykantos kalbos ar teikti nurodymų kibernetinėms atakoms. Pašalinus šiuos patikrinimus kariuomenei, iš esmės būtų sukurta „nulaužta“ (angl. jailbroken) modelio versija. Nors Pentagonas teigia, kad tai būtina priimant didelės svarbos sprendimus, kai DI neturėtų „skaityti moralų“ vadui, „Anthropic“ baiminasi, kad modelis be ribų gali būti panaudotas piktavališkai arba elgtis nenuspėjamai, o tai sukeltų katastrofišką žalą realiame pasaulyje.

„Geros sąžinės“ argumentas

„Anthropic“ atsakymas grindžiamas jos įkūrimo misija. Skirtingai nei daugelis konkurentų, „Anthropic“ buvo sukurta specialiai siekiant spręsti katastrofiškų DI klaidų rizikas. Oficialiame pareiškime bendrovė pabrėžė, kad jų saugumo protokolai nėra „politinis korektiškumas“, o esminės techninės apsaugos priemonės, skirtos užtikrinti, kad DI išliktų naudingas, nekenksmingas ir sąžiningas.

„Mūsų saugumo protokolai nėra pasirenkamos funkcijos; jie yra modelio patikimumo pagrindas. Juos pašalinti reikštų išleisti įrankį, kurio saugaus naudojimo nebegalime garantuoti net ir kontroliuojamoje karinėje aplinkoje.“

Remdamasi „sąžine“, „Anthropic“ signalizuoja, kad tai nėra derybos dėl kainos ar funkcijų, o esminis nesutarimas dėl autonominių sistemų etikos kare.

DI valdymo požiūrių palyginimas

Žemiau pateikta lentelė išryškina skirtumus tarp Pentagono reikalavimų ir dabartinės „Anthropic“ saugumo architektūros.

Funkcija Pentagono reikalavimas (nevaržomas) „Anthropic“ standartas („Claude“)
Operacinė sparta Realiuoju laiku, be filtrų delsos Saugumo patikros prideda milisekundžių delsą
Turinio filtravimas Išjungtas taktiniams scenarijams Aktyvus kenksmingam/neteisėtam turiniui
Modelio lygiavimas Griežtai suderintas su misijos tikslais Suderintas su „Konstituciniais“ saugos principais
Rizikos tolerancija Didelė (Strateginė būtinybė) Maža (Viešasis ir egzistencinis saugumas)
Atskaitomybė Tik žmogus valdymo grandinėje Integruoti techniniai apribojimai

Atgarsiai visame Silicio slėnyje

Šią priešpriešą atidžiai stebi kiti DI milžinai, tokie kaip „OpenAI“ ir „Google“. Jei „Anthropic“ praras sutartį, susidarys vakuumas, kurį gali užpildyti nuolaidesnė įmonė. Tačiau tai taip pat sukuria precedentą, kaip technologijų bendrovės gali priešintis vyriausybės spaudimui paversti savo produktus ginklais arba pašalinti jų saugumą.

Platesnei technologijų pramonei tai išryškina didėjančią „dvigubo panaudojimo“ dilemą. Programinė įranga, skirta civiliniam produktyvumui, gali būti pritaikyta kinetiniams kariniams veiksmams. Kai tokios programinės įrangos kūrėjas praranda kontrolę, kaip modelis mąsto, nenumatytų pasekmių tikimybė – pavyzdžiui, DI haliucinacijos apie eskalacijos priežastį – išauga eksponentiškai.

Praktinės įžvalgos technologijų lyderiams

DI vis labiau integruojantis į vyriausybinę ir didelės svarbos infrastruktūrą, kūrėjai ir vadovai turėtų apsvarstyti šiuos dalykus:

  • Iš anksto apibrėžkite raudonąsias linijas: Įmonės turi nustatyti, ką leis ir ko neleis savo DI daryti dar prieš pradėdamos derybas su vyriausybe.
  • Skaidrumas derinant modelį: Aiškiai informuokite suinteresuotąsias šalis apie tai, kaip „Konstitucinis DI“ arba RLHF (mokymasis su pastiprinimu iš žmogaus grįžtamojo ryšio) veikia modelio rezultatus.
  • Sutartinės apsaugos priemonės: Užtikrinkite, kad sutartyse būtų nuostatos, saugančios kūrėjo teisę išlaikyti saugos standartus nebijant neatidėliotino sutarties nutraukimo.
  • Sąžiningumo kaina: Būkite pasirengę finansinei realybei, kad etikos standartų laikymasis gali lemti pelningų, didelio spaudimo vyriausybinių sandorių praradimą.

Kas toliau?

Jei Pentagonas įgyvendins savo grasinimą nutraukti sutartį, „Anthropic“ susidurs su dideliu pajamų trūkumu, tačiau jos, kaip „pirmiausia saugumą vertinančios“ DI įmonės, reputacija tikriausiai sustiprės. Tuo tarpu Gynybos departamentas gali siekti kurti savo vidinius modelius arba bendradarbiauti su mažesniais, labiau nišiniais gynybos technologijų startuoliais, kurie būtų pasirengę kurti modelius be griežtų saugiklių, būdingų komerciniams produktams.

Šis susidūrimas tikriausiai yra tik pirmas iš daugelio, nes riba tarp civilinių technologijų ir karinių pajėgumų dirbtinio intelekto amžiuje ir toliau nyksta.

Šaltiniai

  • Anthropic Official Blog: Company Mission and Safety Standards
  • Department of Defense: AI Adoption and Integration Strategy
  • Reuters: Tech and Defense Contractual Disputes
  • Wired: The Rise of Constitutional AI
bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą