ИИ

Забудьте о хайпе — обучение роботов становится задачей для других ИИ-агентов

Фреймворк ENPIRE от Nvidia использует ИИ-агентов для обучения парков роботов без помощи человека, сокращая время обучения и достигая 99% успеха.

Alwin Davies

Старший технологический корреспондент

19 июня 2026 г.

Забудьте о хайпе — обучение роботов становится задачей для других ИИ-агентов

Маленький металлический штифт входит в четырехмиллиметровое отверстие с точностью часовщика. Роботизированная рука, удерживающая штифт, движется плавно и уверенно, что наводит на мысль о годах практики. Это успешное действие — конечный продукт нового автоматизированного конвейера. За этим единственным удачным движением стоит сложная цепочка программных команд. Эти команды поступили от ИИ-агента для написания кода, такого как Claude или Codex. Сам агент существует в рамках фреймворка под названием ENPIRE, который исследователи Nvidia недавно представили публике. Чтобы обеспечить работу этого агента, Nvidia выделила огромный бюджет процессорного времени GPU и цифровых токенов. В самом начале этой цепочки стоит простая цель: научить машину выполнять работу по дому без присутствия человека в комнате.

Nvidia в сотрудничестве с исследователями из Университета Карнеги-Меллона и Калифорнийского университета в Беркли недавно опубликовала статью с подробным описанием ENPIRE. Фреймворк позволяет ИИ-агентам брать на себя весь процесс обучения робота. Это те же программные инструменты, которые разработчики используют для написания кода веб-сайтов или отладки приложений. В системе ENPIRE эти агенты отвечают за написание обучающего кода, его тестирование на физическом оборудовании и исправление ошибок в случае неудачи робота. Традиционно инженер-человек тратил недели на тонкую настройку этих движений. Теперь парк из восьми роботов может самостоятельно обучиться тем же навыкам за долю этого времени.

Неутомимый стажер внутри машины

Чтобы понять, как это работает, представьте ИИ-агента как неутомимого стажера. В типичной лаборатории инженер должен наблюдать, как робот пытается поднять блок, видеть неудачу, а затем вручную переписывать код, чтобы исправить захват. Это медленно и дорого. ENPIRE заменяет наблюдателя-человека цифровым циклом. Процесс включает два начальных этапа, в которых участвуют люди. Во-первых, человек помогает агенту создать процедуру сброса. Это набор инструкций, которые говорят роботу, как вернуть рабочее пространство в исходное состояние после неудачной попытки. Во-вторых, человек помогает создать функцию вознаграждения. Это своего рода ИИ-судья, который просматривает видеозаписи с камер, чтобы решить, добился ли робот успеха или потерпел неудачу.

Как только эти два инструмента готовы, люди уходят. ИИ-агент начинает свою смену с поиска в научных статьях лучших методов обучения. Он выбирает стратегию, пишет необходимый код на Python и отправляет его роботизированным рукам. Если робот роняет штифт или промахивается мимо цели, агент видит неудачу, анализирует данные и переписывает код. Это «автоисследование» в физическом мире. Пока люди спят, агенты проводят сотни экспериментов. Им не бывает скучно, и им не нужны перерывы на кофе. Именно этот постоянный цикл проб и ошибок позволяет системе достигать 99% успеха в сложных физических задачах.

Почему восемь рук лучше, чем одна

Настоящая мощь ENPIRE проявляется, когда система переходит от одного робота к целому парку. Nvidia использовала восемь двуруких роботизированных станций для своего основного эксперимента. Эти станции не изолированы. Они соединены через Git — стандартный инструмент, который разработчики программного обеспечения используют для совместного использования и отслеживания изменений в коде. Когда один робот обнаруживает лучший способ вставить видеокарту или разрезать пластиковую стяжку, он фиксирует этот код в общем репозитории. Остальные семь роботов немедленно загружают обновление.

Этот коллективный интеллект создает огромное преимущество в скорости. В задаче, известной как Push-T, где робот должен задвинуть Т-образный блок в определенную зону, одному роботу потребовалось около пяти часов, чтобы освоить движение. Когда исследователи включили все восемь роботов, время сократилось всего до двух часов. Та же тенденция проявилась и при вставке штифта. Одной руке требовалось более 90 минут, чтобы стать надежной, но парк справился с задачей за 40 минут.

Задача	Время обучения одного робота	Время обучения парка из 8 роботов	Итоговый показатель успеха
Push-T	5 часов	2 часа	99%
Вставка штифта	90 минут	40 минут	99%
Разрезание стяжек	Н/Д	Ускорено	99%
Установка GPU	Н/Д	Ускорено	99%

Глядя на общую картину, можно предположить, что «узким местом» в робототехнике никогда не было оборудование. Ограничением была скорость человеческого обучения. Позволяя роботам общаться друг с другом через центрального ИИ-агента, процесс обучения становится децентрализованным и невероятно быстрым.

Трение реального мира

Существует серьезное препятствие, которое исследователи ИИ называют разрывом между симуляцией и реальностью (sim-to-real gap). Легко научить робота делать что-то в компьютерной симуляции, где гравитация идеальна, а поверхности не имеют текстуры. В симуляторе каждый Т-образный блок идентичен, а каждый стол идеально ровный. Реальный мир хаотичен. Столы обладают трением, освещение меняется в течение дня, а механические детали имеют крошечные дефекты.

Во время экспериментов ENPIRE разрыв между симуляцией и реальностью был очевиден. Все три протестированных агента — Codex от OpenAI, Claude Code от Anthropic и Kimi Code от Moonshot — легко решили задачу Push-T в виртуальной кухне. Однако когда код перенесли на реальных физических роботов, два из трех агентов поначалу потерпели неудачу. Они столкнулись с трудностями физики реального стола. Агентам пришлось несколько раз переписывать свой код, чтобы учесть то, как пластиковый блок на самом деле скользит по поверхности. Это подчеркивает, почему физические испытания по-прежнему являются «золотым стандартом» для робототехники. ИИ может быть гением в цифровом мире и при этом не суметь разрезать стяжку в лаборатории, потому что он не учел то, как гнется пластик.

Высокая цена машинного мышления

Хотя сэкономленное время впечатляет, оно не бесплатно. Существует скрытая стоимость того, что ИИ-агенты управляют процессом. Каждый раз, когда агент вроде Claude Code обдумывает проблему, он потребляет токены. Эти токены представляют собой данные, обработанные большой языковой моделью, и они стоят реальных денег. Nvidia отметила, что хотя масштабирование с одного робота до восьми сократило время обучения более чем вдвое, счет за токены рос еще быстрее.

По сути, система обменивает дешевое человеческое время на дорогое компьютерное время. Для такого гиганта, как Nvidia, который владеет чипами и центрами обработки данных, это выгодная сделка. Для небольшого стартапа стоимость того, чтобы позволить ИИ-агенту «продумывать» свой путь через тысячу неудачных экспериментов, может быть выше, чем просто наем инженера-человека. Это создает разрыв на рынке. Компании с наибольшими вычислительными мощностями, скорее всего, будут теми, кто создаст самых способных роботов, потому что они могут позволить себе высокую стоимость автоматизированных неудач.

Что это значит для вашего будущего дома

Для обычного пользователя это исследование — первый шаг к роботам, которые действительно полезны в доме. Большинство нынешних домашних роботов, таких как базовые пылесосы, запрограммированы с использованием жестких правил. Они испытывают трудности, если вы передвинете мебель или купите новый ковер. Роботу, работающему на базе системы вроде ENPIRE, не понадобится обновление ПО от производителя, чтобы справиться с новой домашней работой. Теоретически он мог бы потратить день на «практику» того, как складывать белье именно вашего бренда или загружать именно вашу посудомоечную машину.

Со стороны рынка мы наблюдаем гонку между США и Китаем. На той же неделе, когда Nvidia выпустила ENPIRE, Alibaba представила свой Qwen-Robot Suite. Alibaba фокусируется на программных «мозгах», которые могут работать на любом теле робота, в то время как Nvidia тестирует, как ее собственное оборудование может совершенствовать само себя. Эта конкуренция полезна для потребителей. Это означает, что технологии, делающие роботов умнее, выходят из чисто теоретического пространства на заводы и в дома.

Практически говоря, мы уходим от эпохи роботов, которых программируют, к эпохе роботов, которых тренируют. Человек ставит цель и выступает в роли судьи, а ИИ берет на себя нудную работу по практике до достижения совершенства. В конечном счете это изменит то, как мы взаимодействуем с технологиями. Вместо того чтобы учиться пользоваться машиной, мы будем просто говорить машине, чему мы хотим, чтобы она научилась.

За жаргоном «кодирующих агентов» и «функций вознаграждения» скрывается простая реальность: машины начинают писать свои собственные инструкции. Этот сдвиг, вероятно, приведет к появлению более устойчивого оборудования и более интуитивно понятных устройств. Обратите внимание, как инструменты в вашей жизни сейчас требуют, чтобы вы адаптировались к ним. Через несколько лет, когда эти автономные циклы обучения станут стандартом, устройства в вашем доме сами будут теми, кто адаптируется.

Источники: Исследовательская статья Nvidia GEAR Lab, официальные анонсы Джима Фана в X/Twitter и техническая документация проекта ENPIRE.

#NvidiaENPIRE #МашинноеОбучение #ПромышленнаяАвтоматизация #РобототехникаИИ #ТехнологическиеТренды

До встречи на другой стороне.

Наше решение для электронной почты и облачного хранения данных со сквозным шифрованием обеспечивает наиболее мощные средства безопасного обмена данными, гарантируя их сохранность и конфиденциальность.

/ Создать бесплатный аккаунт

Пользовательские домены

Хранилище объемом до 1 ТБ

Расширенное совместное использование

Шифрование на всех этапах

Самоуничтожающиеся электронные письма

Пользовательские домены

Хранилище объемом до 1 ТБ

Расширенное совместное использование

Шифрование на всех этапах

Самоуничтожающиеся электронные письма

Beeble Mail

Beeble Drive

О Beeble

Миссия

История

Premium

Общие вопросы

Поддержите нас

Свяжитесь с нами