Iedomājieties nenogurdināmu praktikantu, kurš klīst pa plašu industriālo kompleksu. Šim praktikantam nevajag kafiju, viņam nekad neapnīk tūkstošo reizi skatīties uz vienu un to pašu manometru, un tagad viņš spēj atšķirt nedaudz vaļīgu skrūvi no katastrofālas cauruļvada kļūmes ar pieredzējuša inženiera precizitāti. Šī nav aina no zinātniskās fantastikas filmas; tas ir taustāms rezultāts jaunākajai sadarbībai starp Google DeepMind un Boston Dynamics.
Vēsturiski roboti ir bijuši izcili atkārtotu darbību veikšanā, bet briesmīgi novērotāji. Ja jūs ieprogrammētu robota roku automašīnas durvju punktmetināšanai, tā to paveiktu perfekti miljons reižu. Tomēr, ja šīs automašīnas durvis tiktu pavirzītas par pieciem centimetriem pa kreisi, robots, visticamāk, turpinātu metināt gaisu. Šis pielāgošanās spēju trūkums ir ierobežojis robotu izmantošanu stingri kontrolētā vidē, piemēram, uz montāžas līnijām.
Šī jaunā atjauninājuma pamatā ir kaut kas, ko Google sauc par „aģentisko redzi” (agentic vision). Domājiet par to kā par vizuālo melnrakstu. Kad robots skatās uz sarežģītu ainu — piemēram, 50 dažādu analogo mērierīču sienu novecojušā spēkstacijā —, tas ne tikai uzņem fotoattēlu. Tas izmanto AI modeli, lai „norādītu” uz konkrētiem elementiem, izpildītu nelielus koda fragmentus, lai pārbaudītu redzēto, un izdarītu secinājumus, balstoties uz datiem.
Praktiski runājot, tas ir izraisījis milzīgu lēcienu veiktspējā. Iepriekšējā šī modeļa versija, 1.5, pareizi nolasīja instrumentus tikai aptuveni 23 procentos gadījumu. Jaunais 1.6 modelis ir palielinājis šo precizitāti līdz satriecošiem 98 procentiem. Vidējam lietotājam tā ir atšķirība starp GPS, kas ik pa laikam liek iebraukt ezerā, un tādu, kas bez piepūles izved cauri sarežģītam piecu ceļu krustojumam.
Varētu šķist neloģiski tērēt miljoniem dolāru, lai iemācītu augsto tehnoloģiju robotu sunim nolasīt 50 gadus vecu analogo termometru. Kāpēc gan vienkārši nenomainīt termometru pret digitālo sensoru, kas sūta datus uz mākoni?
Skatoties uz kopējo ainu, globālais industriālais mugurkauls ir neticami izturīgs — un neticami vecs. Katra manuālā vārsta, līmeņrāža un manometra nomaiņa naftas pārstrādes rūpnīcā vai Hyundai automobiļu rūpnīcā izmaksātu miljardus un prasītu mēnešiem ilgu dīkstāvi. Ir daudz mērogojamāk piešķirt robotam „acis”, lai tas nolasītu esošo aprīkojumu, nekā pārbūvēt pasauli, lai tā būtu piemērota robotam.
Šeit partnerība ar Boston Dynamics kļūst kritiski svarīga. Viņu robots Spot jau tiek izmēģināts Hyundai Motor Group piederošajās telpās. Izmantojot Gemini Robotics-ER 1.6, Spot tagad var veikt „daudzskatu spriešanu” (multi-view reasoning). Tas var izmantot savas dažādās kameru plūsmas, lai izprastu vidi 3D formātā, nodrošinot, ka tas ne tikai redz mērierīci, bet arī saprot, kur šī mērierīce atrodas attiecībā pret pārējām iekārtām.
Viens no lielākajiem šķēršļiem mākslīgajam intelektam fiziskajā pasaulē ir „halucinācijas” — modeļu tendence pārliecinoši apgalvot, ka kaut kas tur ir, lai gan patiesībā nav. Tērzēšanas robotā halucinācija ir smieklīga dīvainība; smagās rūpniecības vidē, kur robots uzrauga gaistošas ķīmiskas vielas, halucinācija ir drošības murgs.
Google testi parādīja, ka 1.6 modelis daudz labāk spēj pieturēties pie realitātes. Testā ar instrumentu nokrautu galdu vecākais modelis „redzēja” ķerru, kuras nebija, tikai tāpēc, ka tam lūdza tādu meklēt. Jaunais modelis, turpretī, pareizi identificēja āmurus, šķēres un knaibles, ignorējot „āķīgo” jautājumu. Šī uzlabotā precizitāte ir pamats robotu pārvietošanai no laboratorijas uz nekārtīgo, neparedzamo reālo pasauli.
| Funkcija | Gemini Robotics-ER 1.5 | Gemini Robotics-ER 1.6 | Gemini 3.0 Flash |
|---|---|---|---|
| Instrumentu nolasīšanas precizitāte | 23% | 98% | 67% |
| Vizuālā spriešana | Pamata | Aģentiskā (Vizuālais melnraksts) | Standarta |
| Drošības ierobežojumi | Manuāli | Integrēti/Sistēmiski | Vispārīgi |
| Halucināciju biežums | Augsts | Zems | Mērens |
Papildus mērierīču nolasīšanai jaunais modelis tiek raksturots kā līdz šim drošākais Google izstrādājums. Tas ir apmācīts izprast fiziskās drošības ierobežojumus, piemēram, kā rīkoties ar šķidrumiem, tos neizlejot, vai kā pārvietoties cilvēku tuvumā.
Citiem vārdiem sakot, AI apgūst fiziskās pasaules „veselā saprāta” noteikumus. Tagad tas spēj uztvert savainošanās risku sarežģītos scenārijos — piemēram, atpazīstot, ka bērns pie elektrības kontaktligzdas ir augsta riska situācija. Lai gan mēs joprojām esam tālu no tā, lai robotam būtu cilvēka līmeņa izpratne par ētiku, šie pakāpeniskie soļi pretī „iemiesotai spriestspējai” ir būtiski decentralizētai robotikas nākotnei, kur mašīnas strādā mums līdzās, nevis aiz drošības žoga.
No patērētāja viedokļa, visticamāk, tuvākajā laikā Spot suns nenolasīs jūsu mājas termometru. Tomēr netiešā ietekme ir ievērojama.
Galu galā runa nav tikai par robotu suni, kas skatās uz termometru. Runa ir par digitālā intelekta saplūšanu ar fizisko klātbūtni. Mēs virzāmies uz pasauli, kurā datu „digitālo jēlnaftu” iegūst un pārstrādā mašīnas, kas beidzot spēj redzēt pasauli tikpat skaidri kā mēs.
Ikdienas gaitās veltiet mirkli, lai paskatītos uz neredzamo industriālo mehāniku sev apkārt — caurulēm pagrabā, skaitītājiem mājas sānā, sarežģītajām iekārtām pārtikas veikala aizmugurē. Gadu desmitiem tām ir bijušas nepieciešamas cilvēka acis, lai saglabātu drošību. Tagad mēs ieejam laikmetā, kurā šīs acis nekad nemirkšķina, nekad nepiekūst un, pateicoties vizuālajam melnrakstam, reti kļūdās.



Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.
/ Izveidot bezmaksas kontu