Dirbtinis intelektas

Ar naujasis „Google“ DI tikrai gali imituoti realybę, ar tai tik įmantrus skaitmeninis iliuzionistas?

„Google“ pristato „Gemini Omni“ – proveržį sukeliantį DI „pasaulio modelį“, kuris imituoja realybę, kad kurtų ir redaguotų vaizdo įrašus naudojant paprastas pokalbio užklausas.
Rahul Mehta
Rahul Mehta
2026 m. gegužės 19 d.
Ar naujasis „Google“ DI tikrai gali imituoti realybę, ar tai tik įmantrus skaitmeninis iliuzionistas?

Ar kada nors bandėte redaguoti vaizdo įrašą ir norėjote tiesiog pasakyti kompiuteriui: „Padaryk, kad tai atrodytų lyg nufilmuota 8-ajame dešimtmetyje, ir galbūt fone pridėk auksaspalvį retriverį“, užuot valandų valandas vargę su sudėtinga programine įranga? Metų metus barjeras tarp kūrybinės idėjos ir baigto vaizdo įrašo buvo techniniai įgūdžiai – gebėjimas valdyti laiko juostas, spalvų korekciją ir kadrų dažnį. Tačiau kas nutinka, kai kompiuteris ne tik redaguoja vaizdo įrašą, bet ir iš tikrųjų supranta kadrų viduje esantį pasaulį?

„Google I/O 2026“ konferencijoje technologijų milžinė pristatė „Gemini Omni“ – multimodalinį DI modelį, kuris pretenduoja daryti būtent tai. „Google“ nevadina to tiesiog dar vienu vaizdo įrašų generatoriumi; jie jį įvardija kaip „pasaulio modelį“. Tai drąsus teiginys, rodantis, kad DI ne tik spėlioja, koks pikselis bus kitas, bet iš tikrųjų supranta savo kuriamų aplinkų fiziką, gylį ir nuoseklumą. Vidutiniam vartotojui tai gali reikšti reikšmingiausią pokytį skaitmeninėje medijoje nuo išmaniojo telefono kameros atsiradimo.

Už žargono: kas yra pasaulio modelis?

Norėdami suprasti, kodėl „Google“ kelia tokį triukšmą, turime pažvelgti „po gaubtu“. Dauguma DI vaizdo įrankių, kuriuos matėme per pastaruosius dvejus metus, veikia kaip didelės spartos animacinės knygelės. Jie žiūri į kadrą ir, remdamiesi dėsningumais, prognozuoja, kaip turėtų atrodyti kitas. Štai kodėl dažnai matote „haliucinacijas“ – pirštus, kurie pavirsta į šešis, arba fonus, kurie ištirpsta į siurrealistinę sriubą, kai kamera pajuda.

„Gemini Omni“ sukurtas remiantis kitokia prielaida. Sujungdamas „Gemini“ kalbinį intelektą su specializuotais medijos modeliais, tokiais kaip „Veo“ ir „Genie“, „Omni“ bando sukurti 3D scenos supratimą. Paprastais žodžiais tariant, jis vaizdo įrašą mato ne kaip plokščią vaizdų seką, o kaip imituojamą erdvę, kurioje objektai turi svorį, šešėliai seka šviesos šaltinius, o personažai egzistuoja net tada, kai jų nėra ekrane.

Praktiškai tai reiškia, kad jei paprašysite DI paversti jūsų kiemo vaizdo įrašą Marso kraštovaizdžiu, jis ne tik uždės raudoną filtrą. Jis supranta, kur yra žemė, kur buvo medžiai ir kaip marsaeigis turėtų judėti ta konkrečia vietove. Tai mažiau primena vaizdo redaktorių ir daugiau – nenuilstančią filmavimo komandą bei dekoracijų kūrėją viename asmenyje, gebantį perkurti realybę pagal komandą.

„Nano Banana“ palikimas ir kova dėl pagrindinio ekrano

Žvelgiant į platesnį vaizdą, agresyvus „Google“ postūmis su „Omni“ yra tiesioginis atsakas į nepastovią kovą dėl DI viršenybės. Istoriškai „Google“ atsidūrė gynybinėje pozicijoje po to, kai „OpenAI“ sukurta „ChatGPT“ 2022 m. pakeitė rinką. Tačiau pernai, išleidus „Nano Banana“, situacija pradėjo keistis.

Šis keistai pavadintas modelis tapo trikdančia jėga mobiliųjų įrenginių rinkoje. Pavertusi sudėtingą vaizdų redagavimą pokalbiu – leidžiant vartotojams tiesiog „kalbėtis“ su savo nuotraukomis, norint pakeisti aprangą ar foną – „Google“ sugebėjo susigrąžinti pirmąją vietą „App Store“ parduotuvėje. Tai pavertė „Gemini“ iš nišinio tyrimų projekto į plečiamą vartotojų įrankį. „Omni“ yra natūrali tos sėkmės evoliucija, perimanti „Nano Banana“ „stebuklingojo trintuko“ energiją ir pritaikanti ją kur kas sudėtingesniam judančių vaizdų pasauliui.

Rinkos atžvilgiu tai yra vartotojų išlaikymo žaidimas. „Google“ žino, kad jei vartotojai pradės naudoti „Gemini“ savo socialinių tinklų turiniui, mokomiesiems vaizdo įrašams ir darbo pristatymams kurti, ekosistema taps neįtikėtinai atspari konkurentams.

„Flow“ ir „Flow Music“: profesionalūs įrankiai mums visiems

„Google“ pateikia šią technologiją per du pagrindinius kanalus: „Flow“ ir „Flow Music“. Nors profesionaliems kino kūrėjams šie įrankiai gali pasirodyti įdomūs kuriant kadruotes, tikrasis poveikis bus decentralizuotai kūrėjų ekonomikai.

Funkcija Ką daro „Gemini Omni“ Kodėl tai svarbu jums
Nuoseklūs personažai Išlaiko tą patį asmenį/objektą skirtingose scenose. Galite sukurti trumpą istoriją ar reklamą, kurioje herojaus veidas nesikeistų kas 5 sekundes.
Redagavimas pokalbiu Keičia vaizdo įrašo elementus per pokalbį (pvz., „Pakeisk automobilį į dviratį“). Nereikia mokytis sudėtingos redagavimo programinės įrangos ar perfilmuoti scenų.
Erdvinis mąstymas Supranta gylį ir 3D judėjimą. Vaizdo įrašai atrodo pagrįsti ir „tikri“, o ne kaip keistas DI sapnas.
„Flow“ agentas Generuoja scenų idėjas ir organizuoja failus. Jis veikia kaip skaitmeninis prodiuseris, padedantis nuspręsti, ką filmuoti toliau.

„I/O“ pristatymo metu plastilininės animacijos demonstracija buvo ypač iškalbinga. Sugeneruodama mokomąjį vaizdo įrašą apie baltymų lankstymąsi specifiniu meno stiliumi, „Google“ parodė, kad „Omni“ skirtas ne tik realybės „falsifikavimui“; jis skirtas intuityviam sudėtingų duomenų vizualizavimui. Studentui ar smulkiojo verslo savininkui galimybė kurti aukštos kokybės aiškinamąjį turinį be gamybos biudžeto yra apčiuopiamas laimėjimas.

„Na ir kas?“ filtras: praktinės pasekmės jūsų gyvenimui

Taigi, ką tai reiškia žmogui, kuris nėra profesionalus „YouTube“ kūrėjas?

Pirma, apsvarstykite edukacinį potencialą. Įsivaizduokite tėvą, naudojantį „Omni“, kad vakaro pasaką realiuoju laiku paverstų personalizuotu animaciniu filmu. Arba mokytoją, naudojantį „Flow“, kad sukurtų pritaikytą istorinę rekonstrukciją pagal konkretų pamokos planą. Tai ne tik žaislai; tai supaprastintos komunikacijos įrankiai.

Tačiau turime pripažinti kintančią realybę. Šiems įrankiams tampant vis galingesniems ir paprastesniems naudoti, riba tarp „užfiksuotos“ medijos ir „sugeneruotos“ medijos tampa vis labiau neaiški. Žengiame į erą, kurioje matyti nebereiškia tikėti. Jei vaizdo įrašą galima keisti pokalbio būdu – keičiant asmens buvimo vietą, drabužius ar net veiksmus – sisteminis pasitikėjimas vaizdo įrodymais greičiausiai ir toliau nyks.

Vartotojo požiūriu, „Gemini Omni Flash“ diegimas per „Flow“ programėlę rodo, kad „Google“ nori, jog tai būtų greita ir pigu. Jie neslepia to už 50 000 JAV dolerių per mėnesį kainuojančios įmonės licencijos. Jie nori, kad tai būtų jūsų kišenėje ir veiktų kaip skaitmeninis šveicariškas peiliukas jūsų kūrybiniam gyvenimui.

Nematomas stuburas: „Flow“ agentas ir be-kodo darbo eigos

Ko gero, labiausiai neįvertintas pranešimas buvo „Flow Agent“. Nors antraštes užpildo efektingas vaizdo įrašų generavimas, būtent užkulisinė automatizacija daro šią technologiją pritaikomą mastu. Naudodama natūralios kalbos užklausas pritaikytoms redagavimo darbo eigoms kurti („Flow Tools“), „Google“ pašalina paskutinę kliūtį „skaitmeninėje žalioje naftoje“, kuri yra duomenų apdorojimas.

Iš esmės jums nereikia mokėti programuoti ar naudotis sudėtingomis laiko juostomis. Jums tereikia žinoti, kaip apibūdinti tai, ko norite. Ši gamybos demokratizacija yra pagrindinė dabartinės „Google“ strategijos tema. Jie lažinasi, kad jei padarys įrankius pakankamai intuityvius, jų ekosistemoje sukurto turinio kiekis sukurs tokį pamatą, kurio joks konkurentas negalės peržengti.

Nauja perspektyva į skaitmeninius įpročius

Galiausiai „Gemini Omni“ yra žingsnis link to, ką Demis Hassabis vadina bendruoju dirbtiniu intelektu (AGI) – sistemos, kuri ne tik vykdo instrukcijas, bet ir supranta pasaulio kontekstą. Nors vis dar esame toli nuo tikrai sąmoningo DI, gebėjimas „imituoti pasaulį“ vaizdo formatu yra precedento neturintis etapas.

Kai pradėsite matyti šiuos įrankius savo „Google Workspace“ ar mobiliajame įrenginyje, verta stebėti savo skaitmeninius įpročius. Mes judame iš pasaulio, kuriame turinio ieškome, į pasaulį, kuriame jį generuojame čia ir dabar.

Užuot ieškoję „YouTube“ vaizdo įrašo, kaip sutaisyti varvantį čiaupą, netrukus galėsite paprašyti „Gemini“ sugeneruoti pritaikytą gidą naudojant jūsų konkrečios kriauklės 3D modelį. Esmė ta, kad „nenuilstantis praktikantas“ gauna didžiulį paaukštinimą. Klausimas mums nebėra „Ką mašina gali padaryti?“, o greičiau „Ką mes norime sukurti, kai techninių barjerų nebeliks?“

Pakeiskite savo požiūrį: nežiūrėkite į „Omni“ tik kaip į puikų vaizdo triuką. Žiūrėkite į tai kaip į momentą, kai skaitmeninis pasaulis pagaliau pradėjo suprasti fizinį.

Šaltiniai:

  • „Google I/O 2026“ Demis Hassabis pagrindinis pranešimas.
  • „Google DeepMind“ techninė ataskaita: „Gemini Omni and the Evolution of World Models“.
  • Rinkos analizė: „The Rise of Nano Banana and Google's Mobile Comeback“, TechTrends Quarterly, 2026 m. kovas.
  • Lyginamasis tyrimas: Decrypt Media, „Nano Banana 2 vs. GPT Image 2: The Battle for Creative Supremacy“.
bg
bg
bg

Iki pasimatymo kitoje pusėje.

Pašto ir debesies saugojimo sprendimas suteikia galingiausias saugaus keitimosi duomenimis priemones, užtikrinančias jūsų duomenų saugumą ir privatumą.

/ Sukurti nemokamą paskyrą