ИИ

Забудьте о хайпе — настоящие роботы все еще с трудом открывают двери, но NVIDIA Cosmos 3 хочет это изменить

NVIDIA Cosmos 3 — это открытая модель физического ИИ, которая помогает роботам и автономным транспортным средствам понимать физику мира с высокой точностью.
Забудьте о хайпе — настоящие роботы все еще с трудом открывают двери, но NVIDIA Cosmos 3 хочет это изменить

Большинство заголовков в технологических СМИ намекают на то, что роботы вот-вот начнут складывать ваше белье и выгуливать собаку. В реальности же робот на современном заводе часто требует целой команды инженеров для программирования каждого сантиметра его движения. Если коробка на конвейере лежит слегка криво, вся система может остановиться. Физический мир хаотичен, непредсказуем и сложен для навигации программного обеспечения. В то время как цифровой ИИ может написать стихотворение за секунды, физический ИИ с трудом понимает, как отскакивает мяч или как разбивается стакан.

NVIDIA выпустила Cosmos 3, чтобы восполнить именно этот пробел. Компания называет ее открытой базовой моделью мира для физического ИИ. Эта система отличается от чат-ботов, которыми сегодня пользуются многие. Это цифровая нервная система, разработанная, чтобы помочь машинам воспринимать физический мир и предсказывать, что произойдет дальше. Если смотреть на картину в целом, этот релиз является шагом к переносу ИИ с экранов наших компьютеров в тяжелую промышленность, которая составляет невидимую основу современной жизни.

Два мозга внутри машины

Внутри Cosmos 3 использует архитектуру смеси трансформеров (mixture-of-transformers). Это звучит сложно, но, по сути, это дает ИИ два различных типа мыслительной способности. Первая часть — это рассуждающий трансформер (reasoning transformer). Представьте его как штурмана в машине, который смотрит на карту и выбирает лучший маршрут. Он обрабатывает визуальную информацию и пространственные отношения, чтобы понять окружающую среду. Вторая часть — это экспертный генерирующий трансформер (expert generation transformer). Это водитель, который точно знает, на какой угол повернуть руль и когда нажать на тормоз.

Объединяя эти две структуры, модель понимает взаимодействие объектов и движение еще до того, как попытается действовать. В прошлом роботы часто полагались на фиксированные сценарии. Они не понимали, почему они движутся определенным образом. Cosmos 3 использует то, что NVIDIA называет ведущей точностью физики, для прогнозирования траекторий. Если роботу нужно поднять скользкий предмет, модель помогает ему понять, как трение и гравитация повлияют на задачу.

Чем омнимодель отличается от чат-бота

Большинство людей знакомы с языковыми моделями, которые обрабатывают текст. Cosmos 3 — это омнимодель, что означает, что она одновременно работает с самыми разными типами данных. Она понимает текст, изображения, видео и окружающий звук. Это рациональный способ создания машины, которая действительно может выжить в человеческой среде. Роботу на складе нужно видеть приближающийся вилочный погрузчик, слышать его предупреждающий сигнал и одновременно понимать текстовую инструкцию на экране.

Эта модель также генерирует собственные данные. Это практическое решение серьезной проблемы в робототехнике. Снимать тысячи часов видео с неудачами роботов в реальном мире, чтобы научить их тому, чего делать не следует, — очень дорого и долго. Cosmos 3 создает синтетические данные, или цифровые тренировочные сессии, где роботы могут ошибаться миллионы раз в симуляции, прежде чем они когда-либо коснутся реального оборудования. Это снижает потребность в огромных наборах данных из реального мира и позволяет ускорить разработку.

Переход от симуляции к реальности

Отраслевые исследователи из McKinsey предполагают, что робототехника вскоре преодолеет разрыв между симуляцией и реальностью. Исторически сложилось так, что роботы работали в клетках на сборочных линиях для обеспечения безопасности людей. Сегодня они работают в динамичных условиях, где должны адаптироваться к движущимся людям и перемещающимся объектам. Это требует автономности, которую старое программное обеспечение обеспечить не могло.

Характеристика Традиционное ПО для робототехники Физический ИИ NVIDIA Cosmos 3
Среда Контролируемые, статичные клетки Динамичные, непредсказуемые пространства
Данные для обучения Написанные вручную скрипты Синтетические данные и визуальные модели
Реакция на изменения Часто дает сбой при смещении детали Прогнозирует физику для адаптации на лету
Типы входных данных Ограниченные данные датчиков Видео, звук, текст и пространственные данные
Оборудование Узкоспециализированные машины Универсальные агенты физического ИИ

Deloitte прогнозирует, что глобальная установленная мощность промышленных роботов достигнет 5,5 миллионов к 2026 году. Этот рост зависит от того, станут ли машины более интуитивными. Когда у робота есть базовая модель, такая как Cosmos 3, его не нужно перепрограммировать для каждой новой задачи. У него есть общее понимание того, как устроен мир.

Сила открытой коалиции

NVIDIA не держит эту технологию за закрытыми дверями. Компания запустила Cosmos Coalition, в которую входят разработчики и создатели моделей мира, такие как Black Forest Labs и Runway. Это децентрализованный подход к разработке. Делая модель открытой, NVIDIA позволяет другим компаниям вносить свой вклад в виде собственных исследований и данных.

Для обычного пользователя это означает, что роботы разных брендов или автономные автомобили смогут использовать общий язык для понимания физики. Крупные технологические компании, такие как Samsung и LG, уже используют эту платформу. В автомобильном секторе Li Auto использует ее для разработки беспилотных автомобилей. Когда эти компании работают над одной и той же базовой моделью, технология совершенствуется быстрее для всех.

Что стоит за термином «синтетические данные»

Одной из самых прорывных частей этого анонса является акцент на нейронной реконструкции сцен и аугментации видео. По сути, эти инструменты позволяют разработчику взять одно видео со склада и превратить его в тысячи различных сценариев. Они могут изменить освещение, добавить препятствия или симулировать поломку оборудования.

Это ощутимый прогресс, потому что он решает проблему нехватки данных. Гораздо проще научить беспилотный автомобиль справляться с редкой метелью, если вы можете создать высококачественную, физически точную симуляцию этой метели. Для потребителя это ведет к созданию более надежных и безопасных продуктов. Робот-доставщик, использующий эти навыки, с меньшей вероятностью запутается перед лужей на тротуаре или из-за пробегающей собаки, потому что он уже видел тысячи вариаций таких препятствий в своем цифровом обучении.

Что это значит для вашей повседневной жизни

В конечном счете, вы можете никогда не увидеть программное обеспечение Cosmos 3 напрямую, но вы ощутите его эффекты. Эта технология является базовым слоем для следующего поколения потребительских товаров и услуг. С рыночной точки зрения этот сдвиг может привести к появлению более доступных продуктов, поскольку «умные» заводы станут более эффективными.

Что это значит для вас:

  • Более безопасные автономные системы: Автомобили и дроны-доставщики будут лучше понимать физические законы, что сделает их более предсказуемыми в плохую погоду или на многолюдных улицах.
  • Более умная бытовая техника: Следующее поколение домашних роботов, скорее всего, перейдет от простой уборки пылесосом к сложным задачам, таким как уборка со стола без риска разбить стакан.
  • Ускорение производства: Компании вроде Samsung могут перенастроить свои заводы под новые продукты за считанные дни вместо месяцев, потому что их роботов легче обучать.
  • Повышение безопасности на рабочем месте: ИИ-агенты на складах могут обнаруживать дефекты или угрозы безопасности, которые человеческий глаз может упустить во время долгой смены.

Взгляд на общую картину

Дженсен Хуанг, основатель NVIDIA, описывает это как «большой взрыв» физического ИИ. Хотя это корпоративный язык, лежащий в основе сдвиг реален. Мы уходим от ИИ, который просто говорит, к ИИ, который делает. Выпуск Cosmos 3 Super обеспечивает высочайший уровень точности физики для приложений, которые не могут позволить себе ошибок, таких как тяжелая техника или автономный транспорт.

С точки зрения потребителя, мы вступаем в период, когда машины вокруг нас начнут казаться не просто запрограммированными инструментами, а осознанными помощниками. Они будут воспринимать, рассуждать и действовать с таким уровнем гибкости, который раньше был доступен только в научной фантастике. По мере того как эти модели будут становиться все более распространенными, барьер между цифровым и физическим мирами будет продолжать истончаться.

Вместо того чтобы ждать появления одного прорывного робота, который изменит мир, мы видим появление универсального мозга, который можно установить во множество различных типов машин. Это системное изменение, вероятно, переопределит то, как мы взаимодействуем с технологиями в наших домах, офисах и городах. Обратите внимание в следующий раз, когда увидите кассу самообслуживания или автоматизированную тележку для доставки. Эти устройства превращаются из простых компьютеров в агентов физического ИИ, которые по-настоящему понимают мир, в котором они находятся.

Источники: NVIDIA Corporate Newsroom, McKinsey Global Institute, Deloitte Industrial Outlook 2026.

bg
bg
bg

До встречи на другой стороне.

Наше решение для электронной почты и облачного хранения данных со сквозным шифрованием обеспечивает наиболее мощные средства безопасного обмена данными, гарантируя их сохранность и конфиденциальность.

/ Создать бесплатный аккаунт