大多数科技头条都暗示,机器人马上就能帮你叠衣服和遛狗了。而现实情况是,现代工厂里的机器人通常需要一个工程师团队来为其每一厘米的动作编写程序。如果传送带上的箱子放得稍微歪了一点,整个系统可能就会停摆。物理世界是混乱、不可预测且难以让软件导航的。虽然数字 AI 可以在几秒钟内写出一首诗,但物理 AI 在理解球如何弹跳或玻璃如何破碎方面一直举步维艰。
NVIDIA 发布了 Cosmos 3 来弥补这一特定差距。该公司将其称为用于物理 AI 的开放世界基础模型。该系统与许多人今天使用的聊天机器人截然不同。它是一个数字神经系统,旨在帮助机器感知物理世界并预测接下来会发生什么。从大局来看,这次发布是将 AI 从我们的电脑屏幕转移到构成现代生活隐形支柱的重工业中的一次举措。
在底层,Cosmos 3 使用了混合 Transformer 架构。这听起来很复杂,但它本质上赋予了 AI 两种不同类型的思维能力。第一部分是推理 Transformer。可以把它想象成汽车里的导航员,负责查看地图并决定最佳路线。它处理视觉信息和空间关系以理解环境。第二部分是专家生成 Transformer。这就是司机,他确切地知道转动方向盘的幅度以及何时踩刹车。
通过将这两种结构配对,该模型在尝试行动之前就能理解物体之间的交互和运动。在过去,机器人通常依赖固定脚本。它们并不理解为什么要以某种方式移动。Cosmos 3 使用 NVIDIA 所称的“领先的物理准确性”来预测轨迹。如果机器人需要拿起一个湿滑的物体,该模型会帮助它理解摩擦力和重力将如何影响任务。
大多数人熟悉处理文本的语言模型。Cosmos 3 是一个全能模型(Omnimodel),这意味着它能同时处理多种数据类型。它理解文本、图像、视频和环境声音。这是一种构建能够在人类环境中真正生存的机器的精简方法。仓库中的机器人需要同时看到叉车驶来、听到其警告蜂鸣声,并理解屏幕上的文本指令。
该模型还能生成自己的数据。这是解决机器人领域一个主要问题的务实方案。在现实世界中拍摄数千小时机器人失败的视频以教导它们“不要做什么”是非常昂贵且缓慢的。Cosmos 3 创建合成数据(或数字练习环节),机器人可以在模拟环境中失败数百万次,然后才接触到硬件。这减少了对大规模现实世界训练集的需求,并实现了更快的开发。
麦肯锡(McKinsey)的行业研究人员表示,机器人技术很快将跨越从模拟到现实的鸿沟。从历史上看,机器人在流水线的笼子里工作以确保人类安全。今天,它们在动态环境中运行,必须适应移动的人群和变化的物体。这需要旧软件无法提供的自主性。
| 功能 | 传统机器人软件 | NVIDIA Cosmos 3 物理 AI |
|---|---|---|
| 环境 | 受控、静态的笼子 | 动态、不可预测的空间 |
| 训练数据 | 手写代码脚本 | 合成数据和视觉模型 |
| 对变化的响应 | 如果零件移动通常会失败 | 预测物理规律以即时适应 |
| 输入类型 | 有限的传感器数据 | 视频、声音、文本和空间数据 |
| 硬件 | 单一用途机器 | 通用物理 AI 智能体 |
德勤(Deloitte)预测,到 2026 年,全球工业机器人的装机容量将达到 550 万台。这种增长取决于机器变得更加直观。当机器人拥有像 Cosmos 3 这样的基础模型时,它不需要为每个新任务重新编程。它对世界运作方式有了通用的理解。
NVIDIA 并没有将这项技术关在门内。该公司发起了 Cosmos 联盟,其中包括 Black Forest Labs 和 Runway 等开发商和世界模型构建者。这是一种去中心化的开发方法。通过开源模型,NVIDIA 允许其他公司贡献自己的研究和数据。
对于普通用户来说,这意味着不同品牌的机器人或自动驾驶汽车可以共享一种理解物理规律的通用语言。三星(Samsung)和 LG 等主要电子公司已经在使用该平台。在汽车领域,理想汽车(Li Auto)使用它来开发自动驾驶车辆。当这些公司在同一个基础模型上工作时,技术对每个人来说进步得更快。
这次发布中最具颠覆性的部分之一是对神经场景重建和视频增强的关注。本质上,这些工具允许开发人员将一段仓库视频转化为数千种不同的场景。他们可以改变光照、增加障碍物或模拟设备故障。
这是实实在在的进步,因为它解决了数据瓶颈。如果你能生成高质量、物理准确的暴风雪模拟,那么训练自动驾驶汽车处理罕见的暴风雪就会容易得多。对于消费者来说,这将带来更具韧性和更安全的产品。使用这些技能的送货机器人不太可能被路边的水坑或流浪狗搞糊涂,因为它在数字训练中已经见过这些障碍物的数千种变化。
最终,你可能永远不会直接看到 Cosmos 3 软件,但你会感受到它的影响。这项技术是下一代消费品和服务的基础层。在市场方面,随着智能工厂变得更加高效,这种转变可能会带来更实惠的产品。
这对你意味着:
NVIDIA 创始人黄仁勋(Jensen Huang)将此描述为物理 AI 的“大爆炸”。虽然这是企业用语,但底层的转变是真实的。我们正在从只会说话的 AI 转向能够行动的 AI。Cosmos 3 Super 的发布为重型机械或自动交通等不容许出错的应用提供了最高水平的物理准确性。
从消费者的角度来看,我们正在进入一个身边的机器开始变得不像编程工具,而更像有意识的助手的时代。它们将以一种曾仅限于科幻小说的流畅度进行感知、推理和行动。随着这些模型变得更加普遍,数字世界与物理世界之间的界限将继续变薄。
与其等待一个单一的突破性机器人来改变世界,我们正在看到一个可以安装在许多不同类型机器上的“通用大脑”的到来。这种系统性的变化可能会重新定义我们在家中、办公室和城市中与技术互动的方式。下次当你看到自动结账机或自动送货车时,请观察一下。这些设备正在从简单的计算机转变为真正理解所处世界的物理 AI 智能体。
来源:NVIDIA Corporate Newsroom, McKinsey Global Institute, Deloitte Industrial Outlook 2026.



