人工智能

忘掉炒作——机器人训练正成为其他 AI 智能体的工作

英伟达的 ENPIRE 框架利用 AI 编程智能体在无需人工干预的情况下训练机器人集群,大幅缩短了训练时间并实现了 99% 的成功率。
忘掉炒作——机器人训练正成为其他 AI 智能体的工作

一根细小的金属销钉以钟表匠般的精度滑入一个四毫米的孔中。握着销钉的机器人手臂动作流畅、自信,仿佛经过了多年的练习。这一成功的动作是一个全新自动化流水线的最终产物。在这一成功的动作背后,是一串复杂的软件指令。这些指令来自像 Claude 或 Codex 这样的 AI 编程智能体。该智能体本身存在于英伟达(Nvidia)研究人员最近向公众展示的名为 ENPIRE 的框架中。为了给该智能体提供动力,英伟达分配了大量的 GPU 处理时间和数字 Token 预算。这条链条的最开始是一个简单的目标:在没有人在场的情况下教机器完成一项家务。

英伟达与卡内基梅隆大学及加州大学伯克利分校的研究人员合作,最近发布了一篇详细介绍 ENPIRE 的论文。该框架允许 AI 编程智能体接管训练机器人的整个过程。这些智能体与开发人员用于编写网站代码或调试应用程序的软件工具相同。在 ENPIRE 系统中,这些智能体负责编写训练代码、在物理硬件上进行测试,并在机器人失败时修复错误。传统上,人类工程师需要花费数周时间来微调这些动作。现在,由八台机器人组成的集群可以在极短的时间内自学同样的技能。

机器中不知疲倦的实习生

要理解这是如何运作的,可以将 AI 编程智能体想象成一个不知疲倦的实习生。在典型的实验室中,工程师必须观察机器人尝试抓取方块,看到它失败,然后手动重写代码以修正抓取动作。这既缓慢又昂贵。ENPIRE 用数字循环取代了人类观察者。该过程有两个需要人类参与的初始步骤。首先,人类帮助智能体建立一个重置程序。这是一组指令,告诉机器人在尝试失败后如何将工作空间恢复到原始状态。其次,人类帮助创建奖励函数。这是一个 AI 裁判,通过观察摄像头画面来判断机器人是成功还是失败。

一旦这两个工具就位,人类就可以离开了。AI 智能体开始值班,通过搜索学术论文来寻找最佳训练方法。它选择一种策略,编写必要的 Python 代码,并将其发送给机器人手臂。如果机器人掉落了销钉或错过了目标,智能体会看到失败,分析数据并重写代码。这就是物理世界中的自动研究。当人类睡觉时,智能体运行着数百次实验。它们不会感到无聊,也不需要喝咖啡休息。这种不断的试错循环使系统在复杂的物理任务上达到了 99% 的成功率。

为什么八条手臂优于一条

当系统从单个机器人扩展到集群时,ENPIRE 的真正威力就显现出来了。英伟达在其主要实验中使用了八个双臂机器人工作站。这些工作站并非孤立存在。它们通过 Git 连接,这是软件开发人员用来共享和跟踪代码更改的标准工具。当一个机器人发现插入显卡或剪断扎带的更好方法时,它会将该代码提交到共享仓库。其他七个机器人会立即下载更新。

这种共享智能创造了巨大的速度优势。在名为 Push-T 的任务中(机器人必须将 T 形块滑入特定区域),单个机器人大约需要五个小时才能掌握该动作。当研究人员开启所有八个机器人时,时间降至仅两小时。销钉插入任务也出现了同样的趋势。单臂需要超过 90 分钟才能变得可靠,但集群在 40 分钟内就完成了任务。

任务 单个机器人训练时间 八台机器人集群训练时间 最终成功率
Push-T 5 小时 2 小时 99%
销钉插入 90 分钟 40 分钟 99%
剪断扎带 不适用 加速完成 99%
GPU 安装 不适用 加速完成 99%

从大局来看,这表明机器人技术的瓶颈从来不是硬件。限制因素一直是人类指令的速度。通过让机器人通过中央编程智能体相互交流,学习过程变得去中心化且异常迅速。

现实世界的摩擦

AI 研究人员面临一个巨大的障碍,称为“仿真到现实的差距”(sim-to-real gap)。在重力完美且表面没有纹理的计算机模拟中教机器人做某事很容易。在模拟器中,每个 T 形块都是相同的,每张桌子都完美平整。而现实世界是混乱的。桌子有摩擦力,光照全天都在变化,机械零件有微小的缺陷。

在 ENPIRE 实验期间,模拟与现实之间的差距显而易见。测试的所有三个编程智能体——OpenAI 的 Codex、Anthropic 的 Claude Code 和月之暗面(Moonshot)的 Kimi Code——都在虚拟厨房中轻松解决了 Push-T 任务。然而,当代码转移到实际的物理机器人上时,这三个智能体中有两个最初失败了。它们在处理真实桌面的物理特性时遇到了困难。智能体必须多次重写代码,以考虑塑料块在表面实际滑动的方式。这突显了为什么物理测试仍然是机器人技术的金标准。AI 在数字世界中可能是天才,但在实验室里仍可能无法剪断扎带,因为它没有考虑到塑料弯曲的方式。

机器思考的高昂代价

虽然节省的时间令人印象深刻,但这并非免费。让 AI 智能体主导实验存在隐形成本。每当像 Claude Code 这样的智能体思考问题时,它都会消耗 Token。这些 Token 代表大语言模型处理的数据,它们需要花费真金白银。英伟达指出,虽然从一台机器人扩展到八台使训练时间缩短了一半以上,但 Token 账单的增长速度甚至更快。

从本质上讲,该系统是用廉价的人类时间换取昂贵的计算机时间。对于拥有芯片和数据中心的巨头英伟达来说,这是一笔划算的交易。对于规模较小的初创公司来说,让 AI 智能体通过一千次失败的实验来“思考”出解决方案的成本,可能比直接聘请一名人类工程师还要高。这在市场上造成了分化。拥有最强算力的公司可能将成为生产最先进机器人的公司,因为它们负担得起自动化失败的高昂成本。

这对你未来的家庭意味着什么

对于普通用户来说,这项研究是迈向家用实用机器人的第一步。目前大多数家用机器人(如基础吸尘器)都是按照僵化的规则编程的。如果你移动了家具或买了新地毯,它们就会陷入困境。由 ENPIRE 类似系统驱动的机器人不需要制造商提供软件更新来处理新家务。理论上,它可以花一个下午的时间“练习”如何折叠你特定品牌的衣服或装载你特定的洗碗机。

在市场方面,我们正看到中美之间的一场竞赛。在英伟达发布 ENPIRE 的同一周,阿里巴巴推出了 Qwen-Robot 套件。阿里巴巴专注于可适用于任何机器人身体的软件大脑,而英伟达则在测试其硬件如何自我改进。这种竞争对消费者有利。这意味着让机器人变得更智能的技术正在走出纯理论空间,进入工厂和家庭。

从实际角度来看,我们正在告别“编程机器人”的时代,迈向“教练机器人”的时代。人类提供目标和裁判,而 AI 则负责枯燥的练习工作,直到达到完美。最终,这将改变我们与技术互动的方式。我们不再是学习如何使用机器,而是简单地告诉机器我们希望它学习什么。

在编程智能体和奖励函数这些术语背后,是一个简单的现实:机器开始编写自己的手册了。这种转变可能会带来更具韧性的硬件和更直观的设备。观察你生活中的工具目前是如何要求你适应它们的。几年后,随着这些自主训练循环成为标准,你家里的设备将成为进行适应的一方。

来源:Nvidia GEAR Lab 研究论文、Jim Fan 通过 X/Twitter 发布的官方公告,以及 ENPIRE 项目技术文档。

bg
bg
bg

另一边见

我们的端到端加密电子邮件和云存储解决方案提供了最强大的安全通信手段,确保您的数据安全和隐私。

/ 创建免费账户