NVIDIA团队让编程Agent接管真实机器人实验,成功率达99%

8个AI Agent接管机器人舰队,人类开始“休假”

NVIDIA GEAR实验室负责人Jim Fan日前披露了其最新项目ENPIRE。在实验中,研究团队将8个Codex Agent放入一个机器人舰队,分配好GPU算力和充足的token预算,仅给出一个简单目标:尽快解决任务、让机器人保持忙碌但确保安全、不要浪费算力。随后人类基本退出干预。Agent自主驱动整个闭环——自动重置场景、搜索文献、实现想法并搭建基础设施、训练和部署策略、自我验证、分析日志并改代码,不断迭代,直到在真实硬件上可靠完成高精度灵巧任务。这标志着机器人研究首次实现了“自动化研究”的完整闭环。

四大模块构建物理反馈循环,Agent自己写代码改算法

ENPIRE框架专为编码Agent设计,通过四个核心模块构建可重复的物理反馈循环:环境模块(EN)负责自动重置和验证;策略改进模块(PI)启动策略优化;Rollout模块(R)支持单台或多台机器人并行评估策略;进化模块(E)则让编码Agent分析日志、查阅文献、改进训练基础设施和算法代码以解决失败模式。这一系统将真实世界机器人学习转化为由Agent管理的、可控的优化过程。在插针任务中,一个Agent甚至自行编写了接触力安全控制器,效果超过单纯调节若干强化学习参数。正如Karpathy所定义的自动化研究——Agent从互联网上探索不同范式,重写一切可能推动性能提升的部分,包括算法、训练目标甚至数据加载器。

NVIDIA团队让编程Agent接管真实机器人实验,成功率达99%

“物理Scaling Law”显威力:8台机器人比1台快一倍

研究中观察到一种有趣的“物理scaling law”:增加并行机器人数量能显著加快任务解决速度。当研究团队为Agent提供8台机器人(而不是1台)时,插针任务达到接近完美表现所需的时间从1.5小时以上缩短到约40分钟。这些Agent通过Git进行协调:共享代码、放弃不理想的想法,并自主挑选彼此的最佳运行结果。不过,真正的瓶颈并非GPU算力,而是机器人时间。实验中的平均机器人利用率(MRU)始终低于50%——机器人有一半时间都在空闲,等待Agent思考。这意味着更好的模型和更快的token生成速度将直接转化为实际收益。

不靠神经网络也能赢:启发式方法2小时搞定经典基准

在机器人操作基准PushT任务中,传统方法需要大量人类示范数据和数小时的行为克隆训练。但ENPIRE中的Codex、Claude Code和Kimi Code都用一套基于规则的启发式方法,在不到2小时内“解决”了这个任务——不使用神经网络、不进行训练、不依赖任何人类数据。机械臂先执行“go home”回到初始位姿以避免遮挡视觉感知,然后自主完成任务。这印证了ENPIRE的理念:先让Agent通过Code-as-Policy构建自动重置环境,再编写基于启发式规则的奖励函数,最后将环境放入沙箱启动自动化研究。

未来愿景:让黄仁勋察觉不到实验室仍在自主运行

Jim Fan称,接下来的目标是让团队成员安心休假,甚至连NVIDIA CEO黄仁勋都察觉不到实验室仍在自主运行。ENPIRE指向了一个更大的变化:机器人研究正在变成一种环境设计工作——为coding Agent搭建可以进行自动化研究的环境;算法工作则上移到构建Agent能够自行闭合的反馈循环。这个循环会不断复利积累:Agent今天掌握的一项技能,明天就会成为构建并重置更困难任务环境的基础模块,能力自举出新的能力。团队已基于LeRobotHF的SO-101套件和NVIDIA Jetson Thor开发了全栈系统,让更多人能在物理世界中尝试自动化研究。