Mały metalowy pin wsuwa się w czteromilimetrowy otwór z precyzją zegarmistrza. Robotyczne ramię trzymające pin porusza się płynnym, pewnym ruchem, który sugeruje lata praktyki. To udane działanie jest produktem końcowym nowego, zautomatyzowanego rurociągu technologicznego. Za tym pojedynczym udanym ruchem stoi złożony łańcuch poleceń programistycznych. Polecenia te pochodzą od agenta kodującego AI, takiego jak Claude lub Codex. Sam agent istnieje w ramach struktury o nazwie ENPIRE, którą badacze Nvidii niedawno udostępnili publicznie. Aby zasilić tego agenta, Nvidia przeznaczyła ogromny budżet czasu procesowego GPU i cyfrowych tokenów. Na samym początku tego łańcucha znajduje się prosty cel: nauczyć maszynę wykonywania obowiązków domowych bez obecności człowieka w pomieszczeniu.
Nvidia, we współpracy z badaczami z Carnegie Mellon i UC Berkeley, opublikowała niedawno artykuł szczegółowo opisujący ENPIRE. System ten pozwala agentom kodującym AI przejąć cały proces szkolenia robota. Są to te same narzędzia programowe, których programiści używają do pisania kodu stron internetowych lub debugowania aplikacji. W systemie ENPIRE agenci ci są odpowiedzialni za pisanie kodu szkoleniowego, testowanie go na fizycznym sprzęcie i naprawianie błędów, gdy robot zawiedzie. Tradycyjnie ludzki inżynier spędzał tygodnie na dopracowywaniu tych ruchów. Teraz flota ośmiu robotów może nauczyć się tych samych umiejętności w ułamku tego czasu.
Aby zrozumieć, jak to działa, pomyśl o agencie kodującym AI jak o niestrudzonym stażyście. W typowym laboratorium inżynier musi obserwować, jak robot próbuje podnieść blok, widzieć jego porażkę, a następnie ręcznie przepisywać kod, aby poprawić chwyt. Jest to powolne i kosztowne. ENPIRE zastępuje ludzkiego obserwatora cyfrową pętlą. Proces ten składa się z dwóch początkowych etapów, w których biorą udział ludzie. Po pierwsze, osoba pomaga agentowi zbudować procedurę resetowania. Jest to zestaw instrukcji, który mówi robotowi, jak przywrócić obszar roboczy do pierwotnego stanu po nieudanej próbie. Po drugie, człowiek pomaga stworzyć funkcję nagrody. Jest to sędzia AI, który obserwuje nagrania z kamer, aby zdecydować, czy robot odniósł sukces, czy porażkę.
Gdy te dwa narzędzia są już gotowe, ludzie odchodzą. Agent AI rozpoczyna swoją zmianę od przeszukiwania prac naukowych w poszukiwaniu najlepszych metod szkoleniowych. Wybiera strategię, pisze niezbędny kod w języku Python i wysyła go do ramion robotów. Jeśli robot upuści pin lub chybi celu, agent widzi porażkę, analizuje dane i przepisuje kod. To jest autoresearch w świecie fizycznym. Podczas gdy ludzie śpią, agenci przeprowadzają setki eksperymentów. Nie nudzą się i nie potrzebują przerw na kawę. Ten ciągły cykl prób i błędów pozwala systemowi osiągnąć 99% skuteczności w złożonych zadaniach fizycznych.
Prawdziwa moc ENPIRE staje się widoczna, gdy system przechodzi od pojedynczego robota do floty. Nvidia wykorzystała osiem dwuręcznych stacji robotycznych w swoim głównym eksperymencie. Stacje te nie są odizolowane. Są one połączone za pomocą Git, który jest standardowym narzędziem używanym przez programistów do udostępniania i śledzenia zmian w kodzie. Gdy jeden robot odkryje lepszy sposób na włożenie karty graficznej lub przecięcie opaski zaciskowej, przesyła ten kod do wspólnego repozytorium. Pozostałe siedem robotów natychmiast pobiera aktualizację.
Ta wspólna inteligencja tworzy ogromną przewagę prędkości. W zadaniu znanym jako Push-T, w którym robot musi wsunąć blok w kształcie litery T do określonej strefy, pojedynczemu robotowi opanowanie ruchu zajęło około pięciu godzin. Gdy badacze włączyli wszystkie osiem robotów, czas spadł do zaledwie dwóch godzin. Ten sam trend pojawił się przy wkładaniu pinu. Pojedyncze ramię potrzebowało ponad 90 minut, aby stać się niezawodnym, ale flota ukończyła zadanie w 40 minut.
| Zadanie | Czas szkolenia pojedynczego robota | Czas szkolenia floty ośmiu robotów | Końcowy wskaźnik sukcesu |
|---|---|---|---|
| Push-T | 5 godzin | 2 godziny | 99% |
| Wkładanie pinu | 90 minut | 40 minut | 99% |
| Przecinanie opasek | N/D | Przyspieszony | 99% |
| Osadzanie GPU | N/D | Przyspieszony | 99% |
Patrząc na szerszy obraz, sugeruje to, że wąskim gardłem w robotyce nigdy nie był sprzęt. Ograniczeniem była szybkość ludzkich instrukcji. Pozwalając robotom rozmawiać ze sobą za pośrednictwem centralnego agenta kodującego, proces uczenia się staje się zdecentralizowany i niewiarygodnie szybki.
Istnieje znacząca przeszkoda, którą badacze AI nazywają luką sim-to-real (symulacja-rzeczywistość). Łatwo jest nauczyć robota robić coś w symulacji komputerowej, gdzie grawitacja jest idealna, a powierzchnie nie mają tekstury. W symulatorze każdy blok w kształcie litery T jest identyczny, a każdy stół jest idealnie płaski. Prawdziwy świat jest nieuporządkowany. Stoły mają tarcie, oświetlenie zmienia się w ciągu dnia, a części mechaniczne mają drobne niedoskonałości.
Podczas eksperymentów ENPIRE luka między symulacją a rzeczywistością była wyraźna. Wszystkie trzy testowane agenty kodujące — Codex od OpenAI, Claude Code od Anthropic i Kimi Code od Moonshot — z łatwością rozwiązały zadanie Push-T w wirtualnej kuchni. Jednak gdy kod został przeniesiony do rzeczywistych robotów fizycznych, dwa z tych trzech agentów początkowo zawiodły. Zmagały się z fizyką prawdziwego stołu. Agenci musieli kilkakrotnie przepisać swój kod, aby uwzględnić sposób, w jaki plastikowy blok faktycznie ślizgał się po powierzchni. Podkreśla to, dlaczego testy fizyczne są nadal złotym standardem w robotyce. AI może być geniuszem w cyfrowym świecie i nadal nie poradzić sobie z przecięciem opaski zaciskowej w laboratorium, ponieważ nie uwzględniła sposobu, w jaki wygina się plastik.
Chociaż zaoszczędzony czas robi wrażenie, nie jest on darmowy. Istnieje ukryty koszt pozwalania agentom AI na kierowanie procesem. Za każdym razem, gdy agent taki jak Claude Code myśli o problemie, zużywa tokeny. Tokeny te reprezentują dane przetwarzane przez duży model językowy i kosztują prawdziwe pieniądze. Nvidia zauważyła, że podczas gdy skalowanie z jednego robota do ośmiu skróciło czas szkolenia o ponad połowę, rachunek za tokeny rósł jeszcze szybciej.
W zasadzie system wymienia tani czas ludzki na drogi czas komputerowy. Dla giganta takiego jak Nvidia, który posiada chipy i centra danych, jest to opłacalna wymiana. Dla mniejszego startupu koszt pozwolenia agentowi AI na „przemyślenie” drogi przez tysiąc nieudanych eksperymentów może być wyższy niż zatrudnienie ludzkiego inżyniera. Tworzy to podział na rynku. Firmy dysponujące największą mocą obliczeniową prawdopodobnie będą tymi, które wyprodukują najbardziej zdolne roboty, ponieważ stać je na wysoki koszt zautomatyzowanych porażek.
Dla przeciętnego użytkownika te badania są pierwszym krokiem w kierunku robotów, które są faktycznie użyteczne w domu. Większość obecnych robotów domowych, takich jak podstawowe odkurzacze, jest zaprogramowana za pomocą sztywnych reguł. Mają one trudności, jeśli przesuniesz meble lub kupisz nowy dywan. Robot zasilany systemem takim jak ENPIRE nie potrzebowałby aktualizacji oprogramowania od producenta, aby poradzić sobie z nowym zadaniem. Teoretycznie mógłby spędzić popołudnie na „ćwiczeniu”, jak składać pranie Twojej konkretnej marki lub ładować Twoją konkretną zmywarkę.
Po stronie rynkowej widzimy wyścig między USA a Chinami. W tym samym tygodniu, w którym Nvidia wypuściła ENPIRE, Alibaba wprowadziła swój pakiet Qwen-Robot Suite. Alibaba koncentruje się na programowych „mózgach”, które mogą pracować na dowolnym ciele robota, podczas gdy Nvidia testuje, jak jej własny sprzęt może ulepszać się samoczynnie. Ta konkurencja jest dobra dla konsumentów. Oznacza to, że technologia czyniąca roboty inteligentniejszymi wychodzi z czysto teoretycznej przestrzeni do fabryk i domów.
Praktycznie rzecz biorąc, odchodzimy od ery robotów, które są programowane, w stronę ery robotów, które są trenowane. Człowiek zapewnia cel i sędziego, a AI zajmuje się żmudną pracą polegającą na ćwiczeniu, aż do osiągnięcia perfekcji. Ostatecznie zmieni to sposób, w jaki wchodzimy w interakcję z technologią. Zamiast uczyć się obsługi maszyny, po prostu powiemy maszynie, czego chcemy, aby się nauczyła.
Za żargonem agentów kodujących i funkcji nagrody kryje się prosta rzeczywistość: maszyny zaczynają pisać własne instrukcje obsługi. Ta zmiana prawdopodobnie doprowadzi do powstania bardziej odpornego sprzętu i bardziej intuicyjnych urządzeń. Zaobserwuj, jak obecne narzędzia w Twoim życiu wymagają od Ciebie dostosowania się do nich. Za kilka lat, gdy te autonomiczne pętle szkoleniowe staną się standardem, to urządzenia w Twoim domu będą tymi, które będą się dostosowywać.
Źródła: Nvidia GEAR Lab Research Paper, oficjalne ogłoszenia od Jima Fana via X/Twitter oraz dokumentacja techniczna projektu ENPIRE.



Nasze kompleksowe, szyfrowane rozwiązanie do poczty e-mail i przechowywania danych w chmurze zapewnia najpotężniejsze środki bezpiecznej wymiany danych, zapewniając bezpieczeństwo i prywatność danych.
/ Utwórz bezpłatne konto