NVIDIA团队让编程Agent接管真实机器人实验，成功率达99%

6 天前

AI资讯

47 阅读

AI 自动化机器人 NVIDIA Agent

8个AI Agent接管机器人舰队，人类开始“休假”

NVIDIA GEAR实验室负责人Jim Fan日前披露了其最新项目ENPIRE。在实验中，研究团队将8个Codex Agent放入一个机器人舰队，分配好GPU算力和充足的token预算，仅给出一个简单目标：尽快解决任务、让机器人保持忙碌但确保安全、不要浪费算力。随后人类基本退出干预。Agent自主驱动整个闭环——自动重置场景、搜索文献、实现想法并搭建基础设施、训练和部署策略、自我验证、分析日志并改代码，不断迭代，直到在真实硬件上可靠完成高精度灵巧任务。这标志着机器人研究首次实现了“自动化研究”的完整闭环。

四大模块构建物理反馈循环，Agent自己写代码改算法

ENPIRE框架专为编码Agent设计，通过四个核心模块构建可重复的物理反馈循环：环境模块（EN）负责自动重置和验证；策略改进模块（PI）启动策略优化；Rollout模块（R）支持单台或多台机器人并行评估策略；进化模块（E）则让编码Agent分析日志、查阅文献、改进训练基础设施和算法代码以解决失败模式。这一系统将真实世界机器人学习转化为由Agent管理的、可控的优化过程。在插针任务中，一个Agent甚至自行编写了接触力安全控制器，效果超过单纯调节若干强化学习参数。正如Karpathy所定义的自动化研究——Agent从互联网上探索不同范式，重写一切可能推动性能提升的部分，包括算法、训练目标甚至数据加载器。

NVIDIA团队让编程Agent接管真实机器人实验，成功率达99%

“物理Scaling Law”显威力：8台机器人比1台快一倍

研究中观察到一种有趣的“物理scaling law”：增加并行机器人数量能显著加快任务解决速度。当研究团队为Agent提供8台机器人（而不是1台）时，插针任务达到接近完美表现所需的时间从1.5小时以上缩短到约40分钟。这些Agent通过Git进行协调：共享代码、放弃不理想的想法，并自主挑选彼此的最佳运行结果。不过，真正的瓶颈并非GPU算力，而是机器人时间。实验中的平均机器人利用率（MRU）始终低于50%——机器人有一半时间都在空闲，等待Agent思考。这意味着更好的模型和更快的token生成速度将直接转化为实际收益。

不靠神经网络也能赢：启发式方法2小时搞定经典基准

在机器人操作基准PushT任务中，传统方法需要大量人类示范数据和数小时的行为克隆训练。但ENPIRE中的Codex、Claude Code和Kimi Code都用一套基于规则的启发式方法，在不到2小时内“解决”了这个任务——不使用神经网络、不进行训练、不依赖任何人类数据。机械臂先执行“go home”回到初始位姿以避免遮挡视觉感知，然后自主完成任务。这印证了ENPIRE的理念：先让Agent通过Code-as-Policy构建自动重置环境，再编写基于启发式规则的奖励函数，最后将环境放入沙箱启动自动化研究。

未来愿景：让黄仁勋察觉不到实验室仍在自主运行

Jim Fan称，接下来的目标是让团队成员安心休假，甚至连NVIDIA CEO黄仁勋都察觉不到实验室仍在自主运行。ENPIRE指向了一个更大的变化：机器人研究正在变成一种环境设计工作——为coding Agent搭建可以进行自动化研究的环境；算法工作则上移到构建Agent能够自行闭合的反馈循环。这个循环会不断复利积累：Agent今天掌握的一项技能，明天就会成为构建并重置更困难任务环境的基础模块，能力自举出新的能力。团队已基于LeRobotHF的SO-101套件和NVIDIA Jetson Thor开发了全栈系统，让更多人能在物理世界中尝试自动化研究。

NVIDIA团队让编程Agent接管真实机器人实验，成功率达99%

8个AI Agent接管机器人舰队，人类开始“休假”

四大模块构建物理反馈循环，Agent自己写代码改算法

“物理Scaling Law”显威力：8台机器人比1台快一倍

不靠神经网络也能赢：启发式方法2小时搞定经典基准

未来愿景：让黄仁勋察觉不到实验室仍在自主运行

链接失效反馈