Enamik tehnoloogiapealkirju viitab sellele, et robotid on kohe-kohe valmis teie pesu kokku voltima ja koeraga jalutama minema. Tegelikkuses vajab kaasaegses tehases asuv robot sageli tervet inseneride meeskonda, et programmeerida iga sentimeeter tema liikumisest. Kui kast asub konveierilindil veidi viltu, võib kogu süsteem seiskuda. Füüsiline maailm on segane, ettearvamatu ja tarkvarale raskesti navigeeritav. Kuigi digitaalne tehisintellekt suudab kirjutada luuletuse sekunditega, on füüsiline tehisintellekt hätta jäänud mõistmisega, kuidas pall põrkab või klaas puruneb.
NVIDIA on välja andnud Cosmos 3, et täita just see lünk. Ettevõte nimetab seda avatud maailma alusmudeliks füüsilise tehisintellekti jaoks. See süsteem erineb paljude inimeste poolt täna kasutatavatest juturobotitest. See on digitaalne närvisüsteem, mis on loodud aitama masinatel tajuda füüsilist maailma ja ennustada, mis juhtub järgmisena. Suurt pilti vaadates on see väljalase samm AI toomiseks meie arvutiekraanidelt rasketööstusesse, mis moodustab kaasaegse elu nähtamatu selgroo.
Kapoti all kasutab Cosmos 3 "mixture-of-transformers" arhitektuuri. See kõlab keeruliselt, kuid sisuliselt annab see tehisintellektile kaks erinevat tüüpi mõtlemisvõimet. Esimene osa on arutlev transformer (reasoning transformer). Mõelge sellest kui autos istuvast navigaatorist, kes vaatab kaarti ja otsustab parima marsruudi. See töötleb visuaalset teavet ja ruumilisi seoseid, et mõista keskkonda. Teine osa on ekspert-genereeriv transformer (expert generation transformer). See on juht, kes teab täpselt, kui palju rooli keerata ja millal pidurit vajutada.
Paaritades need kaks struktuuri, mõistab mudel objektide koostoimet ja liikumist enne, kui ta proovib tegutseda. Varem tuginesid robotid sageli fikseeritud skriptidele. Nad ei mõistnud, miks nad teatud viisil liiguvad. Cosmos 3 kasutab trajektooride ennustamiseks seda, mida NVIDIA nimetab juhtivaks füüsikaliseks täpsuseks. Kui robot peab haarama libedat objekti, aitab mudel tal mõista, kuidas hõõrdumine ja gravitatsioon ülesannet mõjutavad.
Enamik inimesi on tuttavad keelemudelitega, mis töötlevad teksti. Cosmos 3 on omnimudel, mis tähendab, et see käsitleb samaaegselt väga erinevaid andmetüüpe. See mõistab teksti, pilte, videot ja ümbritsevat heli. See on sujuvam viis ehitada masinat, mis suudab inimkeskkonnas tegelikult ellu jääda. Laos asuv robot peab nägema lähenevat tõstukit, kuulma selle hoiatussignaali ja mõistma samal ajal ekraanil olevat tekstipõhist juhist.
See mudel genereerib ka ise oma andmeid. See on praktiline lahendus robotitehnika suurele probleemile. On väga kallis ja aeglane filmida tuhandeid tunde robotite ebaõnnestumisi reaalsetes oludes, et õpetada neile, mida mitte teha. Cosmos 3 loob sünteetilisi andmeid ehk digitaalseid harjutusseansse, kus robotid saavad simulatsioonis miljoneid kordi ebaõnnestuda, enne kui nad üldse riistvara puudutavad. See vähendab vajadust massiivsete reaalmaailma treeningandmete järele ja võimaldab kiiremat arendust.
McKinsey tööstusuuringud viitavad sellele, et robotitehnika ületab peagi lõhe simulatsiooni ja reaalsuse vahel. Ajalooliselt töötasid robotid inimeste turvalisuse tagamiseks konveieriliinide puurides. Täna tegutsevad nad dünaamilistes keskkondades, kus nad peavad kohanema liikuvate inimeste ja muutuvate objektidega. See nõuab autonoomiat, mida vanem tarkvara ei suutnud pakkuda.
| Funktsioon | Traditsiooniline robotitarkvara | NVIDIA Cosmos 3 füüsiline AI |
|---|---|---|
| Keskkond | Kontrollitud, staatilised puurid | Dünaamilised, ettearvamatud ruumid |
| Treeningandmed | Käsitsi kodeeritud skriptid | Sünteetilised andmed ja visuaalsed mudelid |
| Reaktsioon muutustele | Sageli ebaõnnestub, kui detaili liigutatakse | Ennustab füüsikat, et lennult kohaneda |
| Sisendi tüübid | Piiratud anduriandmed | Video, heli, tekst ja ruumilised andmed |
| Riistvara | Üheotstarbelised masinad | Universaalsed füüsilise AI agendid |
Deloitte prognoosib, et tööstusrobotite globaalne installeeritud võimsus ulatub 2026. aastaks 5,5 miljonini. See kasv sõltub masinate muutumisest intuitiivsemaks. Kui robotil on selline alusmudel nagu Cosmos 3, ei pea teda iga uue ülesande jaoks uuesti programmeerima. Tal on üldine arusaam sellest, kuidas maailm toimib.
NVIDIA ei hoia seda tehnoloogiat suletud uste taga. Ettevõte käivitas Cosmos Coalitioni, kuhu kuuluvad arendajad ja maailmamudelite ehitajad nagu Black Forest Labs ja Runway. See on detsentraliseeritud lähenemisviis arendusele. Tehes mudeli avatuks, võimaldab NVIDIA teistel ettevõtetel panustada oma uuringute ja andmetega.
Tavakasutaja jaoks tähendab see seda, et erinevate kaubamärkide robotid või autonoomsed autod saavad jagada ühist keelt füüsika mõistmiseks. Suured elektroonikafirmad nagu Samsung ja LG kasutavad platvormi juba praegu. Autosektoris kasutab Li Auto seda autonoomsete sõidukite arendamiseks. Kui need ettevõtted töötavad sama alusmudeli kallal, paraneb tehnoloogia kõigi jaoks kiiremini.
Selle teadaande üks murrangulisemaid osi on keskendumine neuraalsele stseeni rekonstrueerimisele ja video augmentatsioonile. Sisuliselt võimaldavad need tööriistad arendajal võtta ühest laovideost tuhandeid erinevaid stsenaariume. Nad saavad muuta valgustust, lisada takistusi või simuleerida seadmete riket.
See on käegakatsutav edasiminek, sest see lahendab andmete kitsaskoha. Palju lihtsam on õpetada isesõitvat autot toime tulema haruldase lumetormiga, kui suudate luua sellest lumetormist kvaliteetse ja füüsikaliselt täpse simulatsiooni. Tarbija jaoks toob see kaasa tooted, mis on vastupidavamad ja ohutumad. Neid oskusi kasutav kullerrobot satub vähem segadusse kõnniteel olevast lumbist või hulkuvast koerast, sest ta on oma digitaalses treeningus näinud juba tuhandeid variatsioone neist takistustest.
Lõppkokkuvõttes ei pruugi te Cosmos 3 tarkvara kunagi otseselt näha, kuid te kogete selle mõjusid. See tehnoloogia on aluskiht järgmise põlvkonna tarbekaupadele ja teenustele. Turu poolelt võib see muutus viia taskukohasemate toodeteni, kuna nutikad tehased muutuvad tõhusamaks.
Mida see teie jaoks tähendab:
NVIDIA asutaja Jensen Huang kirjeldab seda kui füüsilise tehisintellekti "suurt pauku". Kuigi see on korporatiivne kõnepruuk, on selle taga peituv muutus reaalne. Me liigume eemale tehisintellektist, mis ainult räägib, ja tehisintellekti poole, mis tegutseb. Cosmos 3 Superi väljalase pakub kõrgeimat füüsikalist täpsust rakendustele, mis ei saa endale vigu lubada, nagu rasketehnika või autonoomne transport.
Tarbija seisukohast siseneme perioodi, kus meid ümbritsevad masinad hakkavad tunduma vähem programmeeritud tööriistadena ja rohkem teadlike assistentidena. Nad tajuvad, arutlevad ja tegutsevad sujuvusega, mis oli kunagi piiratud vaid ulmekirjandusega. Kui need mudelid muutuvad tavalisemaks, jätkub digitaalse ja füüsilise maailma vahelise piiri õhenemine.
Selle asemel, et oodata ühte läbimurdelist robotit, mis maailma muudaks, näeme universaalse aju saabumist, mida saab paigaldada paljudesse erinevatesse masinatesse. See süsteemne muutus määratleb tõenäoliselt ümber selle, kuidas me suhtleme tehnoloogiaga oma kodudes, kontorites ja linnades. Jälgige järgmisel korral, kui näete iseteeninduskassat või automaatset kullerkäru. Need seadmed on muutumas lihtsatest arvutitest füüsilise AI agentideks, mis mõistavad tõeliselt maailma, kus nad asuvad.
Allikad: NVIDIA Corporate Newsroom, McKinsey Global Institute, Deloitte Industrial Outlook 2026.



Meie läbivalt krüpteeritud e-posti ja pilvesalvestuse lahendus pakub kõige võimsamaid vahendeid turvaliseks andmevahetuseks, tagades teie andmete turvalisuse ja privaatsuse.
/ Tasuta konto loomin