Dauguma technologijų antraščių teigia, kad robotai jau tuoj lankstys jūsų skalbinius ir vedžios šunį. Realybėje robotui modernioje gamykloje dažnai reikia inžinierių komandos, kuri suprogramuotų kiekvieną jo judesio centimetrą. Jei dėžė ant konvejerio stovi šiek tiek kreivai, visa sistema gali sustoti. Fizinis pasaulis yra netvarkingas, nenuspėjamas ir sunkiai įveikiamas programinei įrangai. Nors skaitmeninis DI gali per kelias sekundes parašyti eilėraštį, fizinis DI susiduria su sunkumais bandydamas suprasti, kaip atšoka kamuolys ar kaip dūžta stiklas.
NVIDIA išleido „Cosmos 3“, kad užpildytų būtent šią spragą. Bendrovė jį vadina atviro pasaulio pamatiniu modeliu fiziniam DI. Ši sistema skiriasi nuo pokalbių robotų, kuriais šiandien naudojasi daugelis žmonių. Tai skaitmeninė nervų sistema, sukurta padėti mašinoms suvokti fizinį pasaulį ir numatyti, kas nutiks toliau. Žvelgiant plačiau, šis leidimas yra žingsnis perkeliant DI iš mūsų kompiuterių ekranų į sunkiąją pramonę, kuri sudaro nematomą šiuolaikinio gyvenimo pagrindą.
„Po kapotu“ „Cosmos 3“ naudoja „mixture-of-transformers“ architektūrą. Tai skamba sudėtingai, tačiau iš esmės suteikia DI dviejų skirtingų tipų mąstymo galią. Pirmoji dalis yra samprotavimo transformatorius. Įsivaizduokite jį kaip automobilio navigaciją, kuri žiūri į žemėlapį ir nusprendžia geriausią maršrutą. Jis apdoroja vaizdinę informaciją ir erdvinius ryšius, kad suprastų aplinką. Antroji dalis yra ekspertinis generavimo transformatorius. Tai vairuotojas, kuris tiksliai žino, kiek pasukti vairą ir kada nuspausti stabdžius.
Sujungus šias dvi struktūras, modelis supranta objektų sąveiką ir judėjimą prieš pradėdamas veikti. Praeityje robotai dažnai pasikliovė fiksuotais scenarijais. Jie nesuprato, kodėl juda tam tikru būdu. „Cosmos 3“ naudoja tai, ką NVIDIA vadina pirmaujančiu fizikos tikslumu, kad numatytų trajektorijas. Jei robotui reikia paimti slidų objektą, modelis padeda jam suprasti, kaip trintis ir gravitacija paveiks užduotį.
Dauguma žmonių yra susipažinę su kalbos modeliais, kurie apdoroja tekstą. „Cosmos 3“ yra omnimodelis, o tai reiškia, kad jis vienu metu apdoroja įvairiausio tipo duomenis. Jis supranta tekstą, vaizdus, vaizdo įrašus ir aplinkos garsą. Tai supaprastintas būdas sukurti mašiną, kuri iš tikrųjų galėtų išgyventi žmonių aplinkoje. Robotui sandėlyje reikia vienu metu matyti atvažiuojantį šakinį krautuvą, girdėti jo įspėjamąjį signalą ir suprasti ekrane pateikiamą tekstinę instrukciją.
Šis modelis taip pat generuoja savo duomenis. Tai praktiškas didelės robotikos problemos sprendimas. Filmuoti tūkstančius valandų, kaip robotams nesiseka realiame pasaulyje, siekiant juos išmokyti, ko nedaryti, yra labai brangu ir lėta. „Cosmos 3“ kuria sintetinius duomenis arba skaitmenines pratybas, kuriose robotai gali klysti milijonus kartų simuliacijoje, prieš paliesdami bet kokią aparatinę įrangą. Tai sumažina didžiulių realaus pasaulio mokymo rinkinių poreikį ir leidžia greičiau vystyti technologijas.
„McKinsey“ pramonės tyrėjai teigia, kad robotika netrukus įveiks atotrūkį tarp simuliacijos ir realybės. Istoriškai robotai dirbo narvuose prie surinkimo linijų, kad žmonės būtų saugūs. Šiandien jie dirba dinamiškoje aplinkoje, kur turi prisitaikyti prie judančių žmonių ir besikeičiančių objektų. Tam reikalinga autonomija, kurios senesnė programinė įranga negalėjo suteikti.
| Funkcija | Tradicinė robotikos programinė įranga | „NVIDIA Cosmos 3“ fizinis DI |
|---|---|---|
| Aplinka | Kontroliuojami, statiški narvai | Dinamiškos, nenuspėjamos erdvės |
| Mokymo duomenys | Rankiniu būdu užkoduoti scenarijai | Sintetiniai duomenys ir regos modeliai |
| Reakcija į pokyčius | Dažnai sugenda, jei detalė pajudinama | Prognozuoja fiziką, kad prisitaikytų eigoje |
| Įvesties tipai | Riboti jutiklių duomenys | Vaizdo, garso, teksto ir erdviniai duomenys |
| Aparatinė įranga | Vienos paskirties mašinos | Universalūs fizinio DI agentai |
„Deloitte“ prognozuoja, kad iki 2026 m. pasaulinis įdiegtų pramoninių robotų pajėgumas pasieks 5,5 mln. Šis augimas priklauso nuo to, ar mašinos taps intuityvesnės. Kai robotas turi tokį pamatinį modelį kaip „Cosmos 3“, jo nereikia perprogramuoti kiekvienai naujai užduočiai. Jis turi bendrą supratimą apie tai, kaip veikia pasaulis.
NVIDIA nelaiko šios technologijos už uždarų durų. Bendrovė įkūrė „Cosmos Coalition“, kuriai priklauso kūrėjai ir pasaulio modelių kūrėjai, tokie kaip „Black Forest Labs“ ir „Runway“. Tai decentralizuotas požiūris į plėtrą. Atverdama modelį, NVIDIA leidžia kitoms įmonėms prisidėti prie savo tyrimų ir duomenų.
Vidutiniam vartotojui tai reiškia, kad skirtingų prekės ženklų robotai ar autonominiai automobiliai gali dalytis bendra kalba suprasdami fiziką. Didžiosios elektronikos bendrovės, tokios kaip „Samsung“ ir „LG“, jau naudojasi šia platforma. Automobilių sektoriuje „Li Auto“ ją naudoja autonominėms transporto priemonėms kurti. Kai šios įmonės dirba su tuo pačiu pamatiniu modeliu, technologija tobulėja greičiau visiems.
Viena iš labiausiai perversmą sukeliančių šio pranešimo dalių yra dėmesys neuroniniam scenos rekonstravimui ir vaizdo papildymui. Iš esmės šie įrankiai leidžia kūrėjui paimti vieną sandėlio vaizdo įrašą ir paversti jį tūkstančiais skirtingų scenarijų. Jie gali pakeisti apšvietimą, pridėti kliūčių arba imituoti įrangos gedimą.
Tai apčiuopiama pažanga, nes ji išsprendžia duomenų trūkumo problemą. Daug lengviau išmokyti savivaldį automobilį susidoroti su reta pūga, jei galite sugeneruoti aukštos kokybės, fiziškai tikslią tos pūgos simuliaciją. Vartotojui tai reiškia atsparesnius ir saugesnius produktus. Mažiau tikėtina, kad pristatymo robotas, naudojantis šiuos įgūdžius, sutriks dėl balos ant šaligatvio ar pasiklydusio šuns, nes jis jau matė tūkstančius tokių kliūčių variacijų savo skaitmeninėse treniruotėse.
Galiausiai galbūt niekada tiesiogiai nepamatysite „Cosmos 3“ programinės įrangos, tačiau pajusite jos poveikį. Ši technologija yra pamatinis sluoksnis kitos kartos vartojimo prekėms ir paslaugoms. Rinkos požiūriu šis pokytis gali lemti prieinamesnius produktus, nes išmaniosios gamyklos taps efektyvesnės.
Ką tai reiškia jums:
Jensenas Huangas, NVIDIA įkūrėjas, apibūdina tai kaip fizinio DI didįjį sprogimą. Nors tai korporatyvinė kalba, esminis pokytis yra tikras. Mes pereiname nuo DI, kuris tik kalba, prie DI, kuris veikia. „Cosmos 3 Super“ išleidimas užtikrina aukščiausią fizikos tikslumo lygį programoms, kuriose negalima sau leisti klaidų, pavyzdžiui, sunkiajai technikai ar autonominiam transportui.
Vartotojo požiūriu, žengiame į laikotarpį, kai mus supančios mašinos pradės atrodyti nebe kaip suprogramuoti įrankiai, o kaip suvokiantys padėjėjai. Jos suvoks, samprotaus ir veiks taip sklandžiai, kaip anksčiau buvo įmanoma tik mokslo fantastikoje. Šiems modeliams tampant vis labiau paplitusiems, riba tarp skaitmeninio ir fizinio pasaulio toliau nyks.
Užuot laukę vieno proveržio roboto, kuris pakeis pasaulį, stebime universalių smegenų, kurias galima įdiegti į daugybę skirtingų tipų mašinų, atsiradimą. Šis sisteminis pokytis greičiausiai iš naujo apibrėš, kaip mes sąveikaujame su technologijomis savo namuose, biuruose ir miestuose. Atkreipkite dėmesį kitą kartą, kai pamatysite savitarnos kasą ar automatizuotą pristatymo vežimėlį. Šie įrenginiai iš paprastų kompiuterių virsta fizinio DI agentais, kurie iš tikrųjų supranta pasaulį, kuriame gyvena.
Šaltiniai: NVIDIA Corporate Newsroom, McKinsey Global Institute, Deloitte Industrial Outlook 2026.



Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.
/ Sukurti nemokamą paskyrą