Mākslīgais intelekts

Aizmirstiet ažiotāžu — robotu apmācība kļūst par citu mākslīgā intelekta aģentu darbu

Nvidia ENPIRE ietvars izmanto MI kodēšanas aģentus, lai apmācītu robotu flotes bez cilvēka palīdzības, samazinot apmācības laiku un sasniedzot 99% panākumu līmeni.
Aizmirstiet ažiotāžu — robotu apmācība kļūst par citu mākslīgā intelekta aģentu darbu

Maza metāla tapa ieslīd četru milimetru caurumā ar pulksteņmeistara precizitāti. Robota roka, kas tur tapu, kustas plūstoši un pārliecinoši, kas liecina par gadiem ilgu praksi. Šī veiksmīgā darbība ir jaunas automatizētas darbplūsmas galaprodukts. Aiz šīs vienas veiksmīgās kustības slēpjas sarežģīta programmatūras komandu ķēde. Šīs komandas nāca no MI kodēšanas aģenta, piemēram, Claude vai Codex. Pats aģents eksistē ietvarā ar nosaukumu ENPIRE, kuru Nvidia pētnieki nesen prezentēja sabiedrībai. Lai nodrošinātu šī aģenta darbību, Nvidia piešķīra milzīgu budžetu GPU apstrādes laikam un digitālajiem marķieriem (tokens). Pašā šīs ķēdes sākumā ir vienkāršs mērķis: iemācīt mašīnai veikt darbu bez cilvēka klātbūtnes telpā.

Nvidia sadarbībā ar pētniekiem no Kārnegija Melona universitātes un UC Berkeley nesen publicēja zinātnisko rakstu, kurā sīki aprakstīta ENPIRE sistēma. Šis ietvars ļauj MI kodēšanas aģentiem pārņemt visu robota apmācības procesu. Tie ir tie paši programmatūras rīki, kurus izstrādātāji izmanto, lai rakstītu tīmekļa vietņu kodu vai atkļūdotu lietojumprogrammas. ENPIRE sistēmā šie aģenti ir atbildīgi par apmācības koda rakstīšanu, tā testēšanu uz fiziskas aparatūras un kļūdu labošanu, kad robots cieš neveiksmi. Tradicionāli inženieris pavadīja nedēļas, precīzi pielāgojot šīs kustības. Tagad astoņu robotu flote var iemācīties tās pašas prasmes daļā no šī laika.

Nenogurdināmais praktikants mašīnā

Lai saprastu, kā tas darbojas, iedomājieties MI kodēšanas aģentu kā nenogurdināmu praktikantu. Tipiskā laboratorijā inženierim ir jāvēro, kā robots mēģina pacelt bloku, jāredz tā neveiksme un pēc tam manuāli jāpārraksta kods, lai labotu satvērienu. Tas ir lēni un dārgi. ENPIRE aizstāj cilvēka novērotāju ar digitālu cilpu. Procesam ir divi sākotnējie posmi, kuros ir iesaistīti cilvēki. Pirmkārt, persona palīdz aģentam izveidot atiestatīšanas rutīnu. Tas ir instrukciju kopums, kas norāda robotam, kā pēc neveiksmīga mēģinājuma atgriezt darba vietu sākotnējā stāvoklī. Otrkārt, cilvēks palīdz izveidot atlīdzības funkciju. Tas ir MI tiesnesis, kas vēro kameras kadrus, lai izlemtu, vai robots ir guvis panākumus vai cietis neveiksmi.

Tiklīdz šie divi rīki ir ieviesti, cilvēki dodas prom. MI aģents sāk savu maiņu, meklējot akadēmiskajos rakstos labākās apmācības metodes. Tas izvēlas stratēģiju, uzraksta nepieciešamo Python kodu un nosūta to robotu rokām. Ja robots nomet tapu vai netrāpa mērķī, aģents redz neveiksmi, analizē datus un pārraksta kodu. Tā ir pašizpēte (autoresearch) fiziskajā pasaulē. Kamēr cilvēki guļ, aģenti veic simtiem eksperimentu. Viņiem nekļūst garlaicīgi, un viņiem nav vajadzīgas kafijas pauzes. Šis nemitīgais mēģinājumu un kļūdu cikls ir tas, kas ļauj sistēmai sasniegt 99% panākumu līmeni sarežģītos fiziskos uzdevumos.

Kāpēc astoņas rokas ir labākas par vienu

ENPIRE patiesais spēks izpaužas, kad sistēma pāriet no viena robota uz floti. Nvidia savam primārajam eksperimentam izmantoja astoņas divroku robotu stacijas. Šīs stacijas nav izolētas. Tās ir savienotas, izmantojot Git, kas ir standarta rīks, ko programmatūras izstrādātāji izmanto, lai koplietotu un izsekotu koda izmaiņas. Kad viens robots atklāj labāku veidu, kā ievietot grafisko karti vai pārgriezt kabeļu saiti, tas iesniedz (commit) šo kodu kopējā krātuvē. Pārējie septiņi roboti nekavējoties lejupielādē atjauninājumu.

Šī kopīgā inteliģence rada milzīgu ātruma priekšrocību. Uzdevumā, kas pazīstams kā "Push-T", kur robotam jāiebīda T-veida bloks noteiktā zonā, vienam robotam vajadzēja aptuveni piecas stundas, lai apgūtu kustību. Kad pētnieki ieslēdza visus astoņus robotus, laiks samazinājās līdz tikai divām stundām. Tāda pati tendence parādījās tapu ievietošanā. Vienai rokai bija nepieciešamas vairāk nekā 90 minūtes, lai kļūtu uzticamai, bet flote pabeidza darbu 40 minūtēs.

Uzdevums Viena robota apmācības laiks Astoņu robotu flotes apmācības laiks Galīgais panākumu līmenis
Push-T 5 stundas 2 stundas 99%
Tapas ievietošana 90 minūtes 40 minūtes 99%
Kabeļu saišu griešana N/A Paātrināts 99%
GPU uzstādīšana N/A Paātrināts 99%

Raugoties uz kopējo ainu, tas liecina, ka vājais posms robotikā nekad nav bijusi aparatūra. Ierobežojums bija cilvēka sniegto instrukciju ātrums. Ļaujot robotiem sarunāties savā starpā caur centrālo kodēšanas aģentu, mācību process kļūst decentralizēts un neticami ātrs.

Fiziskās pasaules berze

Pastāv būtisks šķērslis, ko MI pētnieki sauc par "sim-to-real" plaisu. Ir viegli iemācīt robotam kaut ko darīt datora simulācijā, kur gravitācija ir perfekta un virsmām nav tekstūras. Simulatorā katrs T-veida bloks ir identisks un katrs galds ir perfekti plakans. Reālā pasaule ir nekārtīga. Galdiem ir berze, apgaismojums mainās visas dienas garumā, un mehāniskajām detaļām ir sīkas nepilnības.

ENPIRE eksperimentu laikā plaisa starp simulāciju un realitāti bija skaidri redzama. Visi trīs testētie kodēšanas aģenti — OpenAI Codex, Anthropic Claude Code un Moonshot Kimi Code — viegli atrisināja "Push-T" uzdevumu virtuālā virtuvē. Tomēr, kad kods tika pārcelts uz faktiskajiem fiziskajiem robotiem, divi no šiem trim aģentiem sākotnēji cieta neveiksmi. Tie cīnījās ar reāla galda fiziku. Aģentiem nācās vairākas reizes pārrakstīt savu kodu, lai ņemtu vērā to, kā plastmasas bloks patiesībā slīdēja pa virsmu. Tas uzsver, kāpēc fiziskā testēšana joprojām ir robotikas zelta standarts. Mākslīgais intelekts var būt ģēnijs digitālajā pasaulē un tomēr nespēt pārgriezt kabeļu saiti laboratorijā, jo tas nav ņēmis vērā to, kā plastmasa lokās.

Mašīnu domāšanas augstā cena

Lai gan ietaupītais laiks ir iespaidīgs, tas nav bezmaksas. Pastāv slēptās izmaksas, ļaujot MI aģentiem vadīt procesu. Katru reizi, kad aģents, piemēram, Claude Code, domā par problēmu, tas patērē marķierus (tokens). Šie marķieri apzīmē datus, ko apstrādā lielais valodas modelis, un tie maksā reālu naudu. Nvidia atzīmēja, ka, lai gan mērogošana no viena robota uz astoņiem samazināja apmācības laiku vairāk nekā uz pusi, rēķins par marķieriem pieauga vēl straujāk.

Būtībā sistēma iemaina lētu cilvēka laiku pret dārgu datora laiku. Gigantam kā Nvidia, kam pieder mikroshēmas un datu centri, šis ir izdevīgs darījums. Mazākam jaunuzņēmumam izmaksas par to, ka MI aģents "pārdomā" savu ceļu cauri tūkstoš neveiksmīgiem eksperimentiem, varētu būt lielākas nekā vienkārši cilvēka inženiera nolīgšana. Tas rada plaisu tirgū. Uzņēmumi ar vislielāko skaitļošanas jaudu, visticamāk, būs tie, kas ražos spējīgākos robotus, jo tie var atļauties augstās automatizēto kļūdu izmaksas.

Ko tas nozīmē jūsu nākotnes mājoklim

Vidējam lietotājam šis pētījums ir pirmais solis uz robotiem, kas patiešām ir noderīgi mājās. Lielākā daļa pašreizējo mājas robotu, piemēram, pamata putekļsūcēji, ir ieprogrammēti ar stingriem noteikumiem. Tie saskaras ar grūtībām, ja jūs pārvietojat mēbeles vai nopērkat jaunu paklāju. Robotam, ko darbina tāda sistēma kā ENPIRE, nebūtu nepieciešams programmatūras atjauninājums no ražotāja, lai tiktu galā ar jaunu uzdevumu. Teorētiski tas varētu pavadīt pēcpusdienu, "trenējoties", kā salocīt jūsu konkrētā zīmola veļu vai piepildīt jūsu konkrēto trauku mazgājamo mašīnu.

Tirgus pusē mēs redzam sacensību starp ASV un Ķīnu. Tajā pašā nedēļā, kad Nvidia izlaida ENPIRE, Alibaba iepazīstināja ar savu "Qwen-Robot Suite". Alibaba koncentrējas uz programmatūras smadzenēm, kas var darboties uz jebkura robota ķermeņa, savukārt Nvidia testē, kā tās aparatūra var uzlabot pati sevi. Šī konkurence ir labvēlīga patērētājiem. Tas nozīmē, ka tehnoloģija, kas padara robotus viedākus, iziet no tīri teorētiskās telpas un nonāk rūpnīcās un mājās.

Praktiski runājot, mēs attālināmies no robotu programmēšanas ēras un dodamies uz robotu "koučinga" jeb trenēšanas ēru. Cilvēks nodrošina mērķi un tiesnesi, un MI tiek galā ar apnicīgo praktizēšanās darbu, līdz tas ir perfekts. Galu galā tas mainīs to, kā mēs mijiedarbojamies ar tehnoloģijām. Tā vietā, lai mācītos lietot mašīnu, mēs vienkārši pateiksim mašīnai, ko mēs vēlamies, lai tā iemācās.

Aiz kodēšanas aģentu un atlīdzības funkciju žargona slēpjas vienkārša realitāte: mašīnas sāk rakstīt savas rokasgrāmatas. Šīs pārmaiņas, visticamāk, novedīs pie izturīgākas aparatūras un intuitīvākām ierīcēm. Vērojiet, kā rīki jūsu dzīvē pašlaik pieprasa, lai jūs tiem pielāgotos. Pēc dažiem gadiem, kad šīs autonomās apmācības cilpas kļūs par standartu, ierīces jūsu mājās būs tās, kas pielāgosies.

Avoti: Nvidia GEAR Lab Research Paper, oficiālie paziņojumi no Jim Fan caur X/Twitter un ENPIRE projekta tehniskā dokumentācija.

bg
bg
bg

Uz tikšanos otrā pusē.

Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.

/ Izveidot bezmaksas kontu