Dirbtinis intelektas

Pamirškite ažiotažą – robotų mokymas tampa kitų DI agentų darbu

„Nvidia“ ENPIRE sistema naudoja DI kodavimo agentus robotų grupėms mokyti be žmogaus pagalbos, sutrumpindama mokymo laiką ir pasiekdama 99 % sėkmės rodiklį.
Pamirškite ažiotažą – robotų mokymas tampa kitų DI agentų darbu

Mažas metalinis kaištis įslysta į keturių milimetrų skylutę laikrodininko tikslumu. Robotizuota ranka, laikanti kaištį, juda sklandžiai ir užtikrintai, tarsi po ilgų metų praktikos. Šis sėkmingas veiksmas yra naujo automatizuoto konvejerio galutinis produktas. Už šio vienintelio sėkmingo judesio slypi sudėtinga programinės įrangos komandų grandinė. Šios komandos gautos iš DI kodavimo agento, tokio kaip „Claude“ arba „Codex“. Pats agentas veikia sistemoje pavadinimu ENPIRE, kurią „Nvidia“ tyrėjai neseniai pristatė visuomenei. Kad šis agentas veiktų, „Nvidia“ skyrė milžinišką GPU apdorojimo laiko ir skaitmeninių žetonų (tokens) biudžetą. Pačioje šios grandinės pradžioje yra paprastas tikslas: išmokyti mašiną atlikti darbą be žmogaus įsikišimo.

„Nvidia“, bendradarbiaudama su Carnegie Mellon ir UC Berkeley universitetų tyrėjais, neseniai išleido mokslinį darbą, kuriame išsamiai aprašoma ENPIRE sistema. Ši sistema leidžia DI kodavimo agentams perimti visą roboto mokymo procesą. Tai tie patys programinės įrangos įrankiai, kuriuos kūrėjai naudoja svetainių kodui rašyti ar programoms derinti. ENPIRE sistemoje šie agentai yra atsakingi už mokymo kodo rašymą, jo išbandymą su fizine įranga ir klaidų taisymą, kai robotui nepavyksta atlikti užduoties. Tradiciškai inžinierius žmogus praleisdavo savaites tobulindamas šiuos judesius. Dabar aštuonių robotų grupė gali savarankiškai išmokti tų pačių įgūdžių per kelis kartus trumpesnį laiką.

Nenuilstantis stažuotojas mašinoje

Norėdami suprasti, kaip tai veikia, įsivaizduokite DI kodavimo agentą kaip nenuilstantį stažuotoją. Įprastoje laboratorijoje inžinierius turi stebėti, kaip robotas bando paimti bloką, matyti nesėkmę ir tada rankiniu būdu perrašyti kodą, kad pataisytų sugriebimą. Tai lėta ir brangu. ENPIRE pakeičia žmogų stebėtoją skaitmeniniu ciklu. Procesas turi du pradinius žingsnius, kuriuose dalyvauja žmonės. Pirma, žmogus padeda agentui sukurti atstatymo rutiną. Tai instrukcijų rinkinys, nurodantis robotui, kaip po nesėkmingo bandymo grąžinti darbo vietą į pradinę būseną. Antra, žmogus padeda sukurti atlygio funkciją. Tai DI teisėjas, kuris stebi vaizdo kameros įrašus ir nusprendžia, ar robotui pavyko, ar ne.

Kai šie du įrankiai paruošti, žmonės pasitraukia. DI agentas pradeda savo pamainą ieškodamas geriausių mokymo metodų akademiniuose straipsniuose. Jis pasirenka strategiją, parašo reikiamą „Python“ kodą ir nusiunčia jį roboto rankoms. Jei robotas numeta kaištį arba nepataiko į taikinį, agentas mato nesėkmę, analizuoja duomenis ir perrašo kodą. Tai yra automatinis tyrimas fiziniame pasaulyje. Kol žmonės miega, agentai atlieka šimtus eksperimentų. Jie nepavargsta ir jiems nereikia kavos pertraukėlių. Šis nuolatinis bandymų ir klaidų ciklas leidžia sistemai pasiekti 99 % sėkmės rodiklį atliekant sudėtingas fizines užduotis.

Kodėl aštuonios rankos geriau nei viena

Tikroji ENPIRE galia išryškėja, kai sistema nuo vieno roboto pereina prie jų grupės. Pagrindiniam eksperimentui „Nvidia“ naudojo aštuonias dvirankes robotų stotis. Šios stotys nėra izoliuotos. Jos sujungtos per „Git“ – standartinį įrankį, kurį programinės įrangos kūrėjai naudoja dalindamiesi kodu ir sekdami jo pakeitimus. Kai vienas robotas atranda geresnį būdą įdėti vaizdo plokštę arba nukirpti plastikinį dirželį, jis įkelia tą kodą į bendrą saugyklą. Kiti septyni robotai nedelsdami atsisiunčia atnaujinimą.

Šis bendras intelektas sukuria milžinišką greičio pranašumą. Atliekant užduotį „Push-T“, kurioje robotas turi nustumti T formos bloką į tam tikrą zoną, vienam robotui prireikė apie penkių valandų, kad įvaldytų judesį. Kai tyrėjai įjungė visus aštuonis robotus, laikas sutrumpėjo iki dviejų valandų. Ta pati tendencija pasikartojo ir su kaiščio įstatymu. Vienai rankai prireikė daugiau nei 90 minučių, kad ji taptų patikima, tačiau robotų grupė darbą baigė per 40 minučių.

Užduotis Vieno roboto mokymo laikas Aštuonių robotų grupės mokymo laikas Galutinis sėkmės rodiklis
Push-T 5 valandos 2 valandos 99%
Kaiščio įstatymas 90 minučių 40 minučių 99%
Dirželio kirpimas Nėra duomenų Pagreitintas 99%
GPU įstatymas Nėra duomenų Pagreitintas 99%

Žvelgiant plačiau, tai rodo, kad robotikos kliūtis niekada nebuvo techninė įranga. Apribojimas buvo žmogaus teikiamų instrukcijų greitis. Leidžiant robotams kalbėtis tarpusavyje per centrinį kodavimo agentą, mokymosi procesas tampa decentralizuotas ir neįtikėtinai greitas.

Realaus pasaulio trintis

Egzistuoja didelė kliūtis, kurią DI tyrėjai vadina „sim-to-real“ atotrūkiu. Lengva išmokyti robotą ką nors daryti kompiuterinėje simuliacijoje, kur gravitacija yra tobula, o paviršiai neturi tekstūros. Simuliatoriuje kiekvienas T formos blokas yra identiškas, o kiekvienas stalas – idealiai lygus. Realus pasaulis yra netvarkingas. Stalai turi trintį, apšvietimas keičiasi per dieną, o mechaninės dalys turi mažų defektų.

ENPIRE eksperimentų metu atotrūkis tarp simuliacijos ir realybės buvo akivaizdus. Visi trys išbandyti kodavimo agentai – „OpenAI Codex“, „Anthropic Claude Code“ ir „Moonshot Kimi Code“ – lengvai išsprendė „Push-T“ užduotį virtualioje virtuvėje. Tačiau kai kodas buvo perkeltas į tikrus fizinius robotus, du iš trijų agentų iš pradžių patyrė nesėkmę. Jie susidūrė su realaus stalo fizikos problemomis. Agentai turėjo kelis kartus perrašyti savo kodą, kad atsižvelgtų į tai, kaip plastikinis blokas iš tikrųjų slysta paviršiumi. Tai pabrėžia, kodėl fizinis testavimas vis dar yra aukščiausias robotikos standartas. DI gali būti genijus skaitmeniniame pasaulyje ir vis tiek nesugebėti nukirpti dirželio laboratorijoje, nes neatsižvelgė į tai, kaip lankstosi plastikas.

Aukšta mašininio mąstymo kaina

Nors sutaupytas laikas įspūdingas, jis nėra nemokamas. Yra paslėpta kaina leidžiant DI agentams valdyti procesą. Kiekvieną kartą, kai toks agentas kaip „Claude Code“ mąsto apie problemą, jis sunaudoja žetonus. Šie žetonai reprezentuoja didelio kalbos modelio apdorotus duomenis ir jie kainuoja tikrus pinigus. „Nvidia“ pažymėjo, kad nors išplėtimas nuo vieno iki aštuonių robotų sutrumpino mokymo laiką daugiau nei perpus, sąskaita už žetonus augo dar greičiau.

Iš esmės sistema pigų žmogaus laiką iškeičia į brangų kompiuterio laiką. Tokiam milžinui kaip „Nvidia“, kuriai priklauso lustai ir duomenų centrai, tai yra naudingi mainai. Mažesniam startuoliui kaina už tai, kad DI agentas „apmąstytų“ tūkstantį nesėkmingų eksperimentų, gali būti didesnė nei tiesiog pasamdyti inžinierių žmogų. Tai sukuria atskirtį rinkoje. Įmonės, turinčios daugiausiai skaičiavimo galios, tikriausiai bus tos, kurios gamins pajėgiausius robotus, nes galės sau leisti didelę automatizuotų nesėkmių kainą.

Ką tai reiškia jūsų ateities namams

Vidutiniam vartotojui šis tyrimas yra pirmas žingsnis link robotų, kurie iš tikrųjų yra naudingi namuose. Dauguma dabartinių namų robotų, pavyzdžiui, paprasti dulkių siurbliai, yra suprogramuoti pagal griežtas taisykles. Jie sutrinka, jei perstumiate baldus ar nuperkate naują kilimą. Robotui, valdomam tokios sistemos kaip ENPIRE, nereikėtų gamintojo programinės įrangos atnaujinimo, kad jis susidorotų su nauja užduotimi. Teoriškai jis galėtų praleisti popietę „praktikuodamasis“, kaip lankstyti būtent jūsų prekės ženklo skalbinius arba kaip užpildyti būtent jūsų indaplovę.

Rinkoje matome lenktynes tarp JAV ir Kinijos. Tą pačią savaitę, kai „Nvidia“ išleido ENPIRE, „Alibaba“ pristatė savo „Qwen-Robot Suite“. „Alibaba“ sutelkia dėmesį į programines „smegenis“, kurios gali veikti bet kuriame roboto kūne, o „Nvidia“ bando, kaip jos pačios techninė įranga gali tobulinti save. Ši konkurencija naudinga vartotojams. Tai reiškia, kad technologija, leidžianti robotams tapti išmanesniems, keliasi iš grynai teorinės erdvės į gamyklas ir namus.

Praktiškai kalbant, mes traukiamės iš robotų programavimo eros ir judame link robotų kuravimo eros. Žmogus nurodo tikslą ir veikia kaip teisėjas, o DI atlieka varginantį praktikos darbą, kol pasiekiamas tobulumas. Galiausiai tai pakeis mūsų sąveiką su technologijomis. Užuot mokęsi naudotis mašina, mes tiesiog pasakysime mašinai, ko norime, kad ji išmoktų.

Už kodavimo agentų ir atlygio funkcijų terminijos slypi paprasta realybė: mašinos pradeda rašyti savo instrukcijas. Šis pokytis tikriausiai lemis atsparesnę techninę įrangą ir intuityvesnius įrenginius. Pastebėkite, kaip dabartiniai įrankiai jūsų gyvenime reikalauja, kad jūs prie jų prisitaikytumėte. Po kelerių metų, kai šie autonominiai mokymo ciklai taps standartu, jūsų namuose esantys įrenginiai bus tie, kurie prisitaikys prie jūsų.

Šaltiniai: Nvidia GEAR Lab mokslinis darbas, oficialūs Jim Fan pranešimai per X/Twitter ir ENPIRE projekto techninė dokumentacija.

bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą