Представьте себе неутомимого стажера, бродящего по огромному промышленному комплексу. Этому стажеру не нужен кофе, ему никогда не надоедает в тысячный раз смотреть на один и тот же манометр, и теперь он может отличить слегка ослабленный болт от катастрофического прорыва трубы с точностью опытного инженера. Это не сцена из научно-фантастического ремейка; это осязаемый результат последнего сотрудничества Google DeepMind и Boston Dynamics.
14 апреля 2026 года компания Google объявила о выпуске Gemini Robotics-ER 1.6 — специализированной модели ИИ, разработанной для того, чтобы наделить таких роботов, как четырехногий Spot, «воплощенным рассуждением» (embodied reasoning). Проще говоря, это означает, что робот больше не является просто камерой с дистанционным управлением. Он начинает понимать физический мир, в котором находится, превращаясь из простого инструмента в автономного инспектора, способного считывать показания аналоговых шкал и идентифицировать инструменты в загроможденной комнате с точностью, близкой к человеческой.
Исторически сложилось так, что роботы блестяще справлялись с монотонной работой, но совершенно не умели быть наблюдательными. Если вы запрограммируете роботизированную руку для точечной сварки автомобильной двери, она сделает это идеально миллион раз. Однако, если эта дверь сместится на два дюйма влево, робот, скорее всего, продолжит варить воздух. Это отсутствие адаптивности удерживало роботов в строго контролируемых средах, таких как сборочные линии.
В основе этого нового обновления лежит технология, которую Google называет «агентным зрением» (agentic vision). Представьте это как визуальный блокнот. Когда робот смотрит на сложную сцену — скажем, на стену из 50 различных аналоговых приборов на стареющей электростанции — он не просто делает фото. Он использует модель ИИ, чтобы «указать» на конкретные элементы, выполнить небольшие фрагменты кода для проверки увиденного и провести рассуждение на основе данных.
С практической точки зрения это привело к огромному скачку в производительности. Предыдущая версия этой модели, версия 1.5, правильно считывала показания приборов лишь в 23 процентах случаев. Новая модель 1.6 увеличила эту точность до ошеломляющих 98 процентов. Для обычного пользователя это такая же разница, как между GPS, который время от времени предлагает вам заехать в озеро, и тем, который без труда ориентируется на сложном пятистороннем перекрестке.
Может показаться нелогичным тратить миллионы долларов на обучение высокотехнологичной собаки-робота тому, как считывать показания 50-летнего аналогового термометра. Почему бы просто не заменить термометр цифровым датчиком, который отправляет данные в облако?
Если смотреть на картину в целом, глобальный промышленный костяк невероятно устойчив — и невероятно стар. Замена каждого ручного клапана, смотрового стекла и манометра на нефтеперерабатывающем заводе или автомобильном заводе Hyundai обойдется в миллиарды и потребует месяцев простоя. Гораздо более масштабируемо дать роботу «глаза» для считывания показаний существующего оборудования, чем перестраивать мир под робота.
Именно здесь партнерство с Boston Dynamics становится критически важным. Их робот Spot уже проходит испытания на объектах, принадлежащих Hyundai Motor Group. Используя Gemini Robotics-ER 1.6, Spot теперь может выполнять «многоракурсное рассуждение» (multi-view reasoning). Он может использовать различные потоки своих камер, чтобы понимать окружающую среду в 3D, гарантируя, что он не просто видит прибор, но и понимает, где этот прибор находится по отношению к остальному оборудованию.
Одним из самых больших препятствий для ИИ в физическом мире являются «галлюцинации» — склонность моделей уверенно утверждать, что что-то существует, когда этого нет. В чат-боте галлюцинация — это забавный курьез; в условиях тяжелой промышленности, где робот следит за летучими химикатами, галлюцинация — это кошмар для безопасности.
Тестирование Google показало, что модель 1.6 гораздо лучше придерживается реальности. В тесте с загроможденным инструментами столом старая модель «увидела» тачку, которой не существовало, просто потому, что ее попросили ее поискать. Новая модель, напротив, правильно идентифицировала молотки, ножницы и плоскогубцы, игнорируя вопрос с подвохом. Эта повышенная точность является фундаментом для вывода роботов из лабораторий в хаотичный и непредсказуемый реальный мир.
| Характеристика | Gemini Robotics-ER 1.5 | Gemini Robotics-ER 1.6 | Gemini 3.0 Flash |
|---|---|---|---|
| Точность чтения приборов | 23% | 98% | 67% |
| Визуальное рассуждение | Базовое | Агентное (Визуальный блокнот) | Стандартное |
| Ограничения безопасности | Ручные | Интегрированные/Системные | Общие |
| Частота галлюцинаций | Высокая | Низкая | Умеренная |
Помимо простого считывания показаний шкал, новая модель описывается как самая безопасная в истории Google. Она была обучена понимать физические ограничения безопасности, например, как обращаться с жидкостями, не проливая их, или как перемещаться рядом с людьми.
Иными словами, ИИ учится правилам «здравого смысла» физического мира. Теперь он может воспринимать риск получения травмы в сложных сценариях — например, распознавать, что ребенок рядом с электрической розеткой — это ситуация высокого риска. Хотя мы еще далеки от того, чтобы робот обладал человеческим уровнем понимания этики, эти постепенные шаги к «воплощенному рассуждению» необходимы для децентрализованного будущего робототехники, где машины работают вместе с нами, а не за защитным ограждением.
С точки зрения потребителя, вы вряд ли в ближайшее время заведете собаку Spot для считывания показаний домашнего термостата. Однако косвенные эффекты весьма значительны.
В конечном счете, речь идет не просто о собаке-роботе, смотрящей на термометр. Речь идет о слиянии цифрового интеллекта с физическим присутствием. Мы движемся к миру, где «цифровая сырая нефть» данных извлекается и перерабатывается машинами, которые, наконец, могут видеть мир так же ясно, как и мы.
В течение дня найдите минутку, чтобы взглянуть на невидимую промышленную механику вокруг вас — трубы в подвале, счетчики на стене дома, сложное оборудование в подсобке продуктового магазина. Десятилетиями для обеспечения их безопасности требовались человеческие глаза. Сейчас мы вступаем в эру, когда эти глаза никогда не моргают, никогда не устают и — благодаря визуальному блокноту — редко ошибаются.



Наше решение для электронной почты и облачного хранения данных со сквозным шифрованием обеспечивает наиболее мощные средства безопасного обмена данными, гарантируя их сохранность и конфиденциальность.
/ Создать бесплатный аккаунт