Tehisintellekt

Unustage haip – robotite treenimine on muutumas teiste tehisintellekti agentide tööks

Nvidia ENPIRE raamistik kasutab tehisintellekti koodiloome agente robotiparkide treenimiseks ilma inimese abita, vähendades treeningaega ja saavutades 99% edukuse määra.

Alwin Davies

Tehnoloogia vanemkorrespondent

19. juuni 2026

Unustage haip – robotite treenimine on muutumas teiste tehisintellekti agentide tööks

Väike metalltihvt libiseb neljamillimeetrisse auku kellassepa täpsusega. Tihvti hoidev robotkäsi liigub sujuva ja enesekindla liigutusega, mis viitab aastatepikkusele harjutamisele. See edukas tegevus on uue automatiseeritud töövoo lõpp-produkt. Selle üheainsa eduka liigutuse taga on tarkvarakäskude keerukas ahel. Need käsud tulid tehisintellekti koodiloome agendilt nagu Claude või Codex. Agent ise eksisteerib raamistikus nimega ENPIRE, mille Nvidia teadlased hiljuti avalikkusele tutvustasid. Selle agendi käitamiseks eraldas Nvidia tohutu eelarve GPU protsessoriressurssi ja digitaalseid tokeneid. Selle ahela päris alguses on lihtne eesmärk: õpetada masinat tegema tööd ilma inimese kohaloluta.

Nvidia, koostöös Carnegie Melloni ja UC Berkeley teadlastega, avaldas hiljuti teadustöö, mis kirjeldab ENPIRE-t. Raamistik võimaldab tehisintellekti koodiloome agentidel võtta üle kogu roboti treenimise protsessi. Need on samad tarkvaratööriistad, mida arendajad kasutavad veebilehtede koodi kirjutamiseks või rakenduste silumiseks. ENPIRE süsteemis vastutavad need agendid treeningkoodi kirjutamise, selle füüsilisel riistvaral testimise ja vigade parandamise eest, kui robot ebaõnnestub. Traditsiooniliselt kulutas insener nädalaid nende liigutuste peenhäälestamisele. Nüüd suudab kaheksast robotist koosnev park õpetada endale samu oskusi murdosaga sellest ajast.

Väsimatu praktikant masinas

Et mõista, kuidas see toimib, mõelge tehisintellekti koodiloome agendist kui väsimatust praktikandist. Tüüpilises laboris peab insener jälgima, kuidas robot üritab klotsi üles tõsta, nägema selle ebaõnnestumist ja seejärel käsitsi koodi ümber kirjutama, et haaret parandada. See on aeglane ja kallis. ENPIRE asendab inimvaatleja digitaalse ahelaga. Protsessil on kaks algset sammu, kus osalevad inimesed. Esiteks aitab inimene agendil luua lähtestusrutiini. See on juhiste kogum, mis ütleb robotile, kuidas viia tööala pärast ebaõnnestunud katset tagasi algseisu. Teiseks aitab inimene luua tasufunktsiooni. See on tehisintellektist kohtunik, kes jälgib kaamerapilti, et otsustada, kas robot õnnestus või ebaõnnestus.

Kui need kaks tööriista on paigas, lahkuvad inimesed. Tehisintellekti agent alustab oma vahetust, otsides akadeemilistest artiklitest parimaid treenimismeetodeid. Ta valib strateegia, kirjutab vajaliku Pythoni koodi ja saadab selle robotkätele. Kui robot pillab tihvti maha või eksib sihtmärgiga, näeb agent ebaõnnestumist, analüüsib andmeid ja kirjutab koodi ümber. See on automaatne teadustöö füüsilises maailmas. Sel ajal kui inimesed magavad, viivad agendid läbi sadu eksperimente. Nad ei tüdine ega vaja kohvipause. See pidev katse-eksituse tsükkel ongi see, mis võimaldab süsteemil saavutada keeruliste füüsiliste ülesannete puhul 99% edukuse määra.

Miks kaheksa kätt on parem kui üks

ENPIRE tegelik võimsus ilmneb siis, kui süsteem liigub ühelt robotilt pargile. Nvidia kasutas oma peamises eksperimendis kaheksat kahekäelist robotjaama. Need jaamad ei ole isoleeritud. Nad on ühendatud Giti kaudu, mis on standardne tööriist, mida tarkvaraarendajad kasutavad koodi jagamiseks ja muudatuste jälgimiseks. Kui üks robot avastab parema viisi graafikakaardi sisestamiseks või juhtmesideme lõikamiseks, salvestab ta selle koodi ühisesse hoidlasse. Ülejäänud seitse robotit laadivad uuenduse kohe alla.

See jagatud intelligentsus loob tohutu eelise kiiruses. Ülesandes nimega Push-T, kus robot peab lükkama T-kujulise klotsi kindlasse tsooni, kulus ühel robotil liigutuse omandamiseks umbes viis tundi. Kui teadlased lülitasid sisse kõik kaheksa robotit, langes aeg vaid kahele tunnile. Sama trend ilmnes tihvti sisestamisel. Üksik käsi vajas töökindluse saavutamiseks üle 90 minuti, kuid robotite park lõpetas töö 40 minutiga.

Ülesanne	Ühe roboti treeningaeg	Kaheksarobotilise pargi treeningaeg	Lõplik edukuse määr
Push-T	5 tundi	2 tundi	99%
Tihvti sisestamine	90 minutit	40 minutit	99%
Juhtmesideme lõikamine	N/A	Kiirendatud	99%
GPU paigaldamine	N/A	Kiirendatud	99%

Suurt pilti vaadates viitab see sellele, et robootika kitsaskoht ei ole kunagi olnud riistvara. Piiranguks oli inimeste antavate juhiste kiirus. Lastes robotitel omavahel keskse koodiloome agendi kaudu rääkida, muutub õppeprotsess detsentraliseerituks ja uskumatult kiireks.

Füüsilise maailma takistused

Ees on märkimisväärne takistus, mida tehisintellekti uurijad kutsuvad "sim-to-real" lõheks. Robotit on lihtne õpetada midagi tegema arvutisimulatsioonis, kus gravitatsioon on täiuslik ja pindadel puudub tekstuur. Simulaatoris on iga T-kujuline klots identne ja iga laud täiesti sile. Reaalne maailm on aga korratu. Laudadel on hõõrdumine, valgustus muutub päeva jooksul ja mehaanilistel osadel on pisikesed ebatäiuslikkused.

ENPIRE eksperimentide käigus oli lõhe simulatsiooni ja tegelikkuse vahel selge. Kõik kolm testitud koodiloome agenti – OpenAI Codex, Anthropicu Claude Code ja Moonshoti Kimi Code – lahendasid Push-T ülesande virtuaalses köögis vaevata. Kui aga kood liikus tegelikele füüsilistele robotitele, ebaõnnestusid neist kolmest agendist esialgu kaks. Nad nägid vaeva päris laua füüsikaga. Agendid pidid oma koodi mitu korda ümber kirjutama, et arvestada sellega, kuidas plastikklots tegelikult mööda pinda libises. See rõhutab, miks füüsiline testimine on robootikas endiselt kuldstandard. Tehisintellekt võib olla geenius digitaalses maailmas ja ikkagi ebaõnnestuda laboris juhtmesideme lõikamisel, sest ta ei arvestanud plastiku paindumisega.

Masinmõtlemise kõrge hind

Kuigi säästetud aeg on muljetavaldav, ei ole see tasuta. Tehisintellekti agentidele ohjade andmisel on peidetud kulu. Iga kord, kui agent nagu Claude Code probleemi üle mõtleb, tarbib see tokeneid. Need tokenid tähistavad suure keelemudeli poolt töödeldud andmeid ja need maksavad päris raha. Nvidia märkis, et kuigi ühelt robotilt kaheksale üleminek vähendas treeningaega rohkem kui poole võrra, kasvas tokenite arve veelgi kiiremini.

Sisuliselt vahetab süsteem odava inimaja kalli arvutiaja vastu. Gigandi nagu Nvidia jaoks, kellele kuuluvad kiibid ja andmekeskused, on see võidukas tehing. Väiksema idufirma jaoks võib kulu, mis kaasneb tehisintellekti agendi laskmisega läbi tuhande ebaõnnestunud katse "mõelda", olla suurem kui lihtsalt inseneri palkamine. See tekitab turul lõhe. Suurima arvutusvõimsusega ettevõtted on tõenäoliselt need, kes toodavad kõige võimekamaid roboteid, sest nad saavad endale lubada automatiseeritud ebaõnnestumise kõrget hinda.

Mida see tähendab teie tuleviku kodu jaoks

Tavakasutaja jaoks on see uurimistöö esimene samm robotite suunas, mis on kodus tegelikult kasulikud. Enamik praegusi koduroboteid, nagu lihtsad tolmuimejad, on programmeeritud jäikade reeglitega. Nad jäävad hätta, kui liigutate mööblit või ostate uue vaiba. ENPIRE-sarnase süsteemiga töötav robot ei vajaks tootjalt tarkvarauuendust uue ülesandega toimetulekuks. Teoreetiliselt võiks ta veeta pärastlõuna "harjutades", kuidas voltida just teie brändi pesu või täita teie konkreetset nõudepesumasinat.

Turu poolel näeme võidujooksu USA ja Hiina vahel. Samal nädalal, kui Nvidia avaldas ENPIRE, tutvustas Alibaba oma Qwen-Robot Suite’i. Alibaba keskendub tarkvaralisele ajule, mis suudab töötada mis tahes roboti kehas, samas kui Nvidia testib, kuidas tema enda riistvara saaks end täiustada. See konkurents on tarbijatele hea. See tähendab, et tehnoloogia robotite nutikamaks muutmiseks on liikumas puhtalt teoreetilisest ruumist tehastesse ja kodudesse.

Praktiliselt öeldes liigume eemale programmeeritud robotite ajastust ja suundume treenitavate robotite ajastusse. Inimene seab eesmärgi ja on kohtunikuks ning tehisintellekt tegeleb tüütu harjutamisega, kuni tulemus on täiuslik. Lõppkokkuvõttes muudab see seda, kuidas me tehnoloogiaga suhtleme. Selle asemel, et õppida masinat kasutama, ütleme me masinale lihtsalt, mida me tahame, et ta õpiks.

Koodiloome agentide ja tasufunktsioonide žargooni taga on lihtne reaalsus: masinad hakkavad ise oma kasutusjuhendeid kirjutama. See muutus toob tõenäoliselt kaasa vastupidavama riistvara ja intuitiivsemad seadmed. Jälgige, kuidas teie elu praegused tööriistad nõuavad teilt nendega kohanemist. Mõne aasta pärast, kui need autonoomsed treeningtsüklid muutuvad standardiks, on teie kodu seadmed need, mis kohanevad.

Allikad: Nvidia GEAR Lab Research Paper, Jim Fan-i ametlikud teadaanded X/Twitteri kaudu ja ENPIRE projekti tehniline dokumentatsioon.

#Masinõpe #NvidiaENPIRE #RobootikaAI #TehnoloogiaTrendid #Tööstusautomaatika

Kohtumiseni teisel poolel.

Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.

/ Tasuta konto loomin

Kohandatud domeenid

Kuni 1TB salvestusruumi

Täiustatud jagamine

End-To-End krüpteerimine

Enesehävituslikud e-kirjad

Kohandatud domeenid

Kuni 1TB salvestusruumi

Täiustatud jagamine

End-To-End krüpteerimine

Enesehävituslikud e-kirjad

Beeble Mail

Beeble Drive

Beeble'i kohta

Missioon

Lugu

Premium

Üldised küsimused

Anneta

Kontaktid