物理世界：AI Agent 的下一个战场

2 小时前

AI资讯

2 阅读

Agent [AI 物理世界商业落地日抛型编程]

从“刷榜竞赛”到“营收为王”：硅谷风向的急转弯

过去两年，AI行业的焦点曾高度集中在底层大模型的能力竞赛上，但这一风向正在发生根本性转变。硅谷硬科技投资机构FoundersX的合伙人观察到，AI创业的重心已从“追逐模型能力”转向“产品和营收导向”。这一转变背后是技术本身跨过了“临界点”——大模型的能力已经足够好，不再是制约商业应用的瓶颈。他们投资组合中多家成立仅两到三年的初创公司，在一年内就实现了500万至1000万美元的年化收入（ARR），且增长速度惊人。与此同时，一个全新的编程范式——“日抛型编程”——正在兴起：借助AI Agent，个人可以即时生成、使用并抛弃代码，解决当下的自动化任务。例如，一位用户使用本地Claude Code仅用5分钟就完成了原本需要繁琐手工操作的书单封面拼接任务，而这份代码在任务完成后即可被“扔掉”。这标志着AI正在从“生成内容”进入“执行任务”阶段，而执行任务的核心战场，正从数字屏幕扩展到真实物理世界。

Meta的“早期经验”：让Agent在试错中学会因果推理

然而，要让预训练模型蜕变为能在物理世界自主执行复杂长程任务的Agent，面临一个关键瓶颈：反馈机制的困境。现有主流方法要么是成本高昂的模仿学习（只告诉模型“怎么做”，不教“不这么做会怎样”），要么是依赖稀疏奖励的强化学习（在真实任务中奖励往往缺失或延迟）。2025年10月，Meta等机构发表的论文《Agent Learning via Early Experience》提出了第三条路——“中训练”范式，试图用廉价而有效的反馈形式搭建关键桥梁。其核心思想是：与其让Agent模仿专家或等待奖励，不如让它从自己的“试错”中学习——即便没有奖励，每次行动后环境发生的状态变化本身，就是极具价值且免费的监督信号。例如，学习订机票时，传统模仿学习只给成功录屏；而“早期经验”让Agent主动尝试点错日期、填错证件号，然后观察报错信息、页面跳转等环境反应。论文设计了两种具体策略：隐式世界建模（训练Agent根据“当前状态+动作”预测“未来状态”，在没有奖励的情况下悟出世界运行规律）和自我反思（让Agent借助强大语言模型的点评，分析专家选择的因果逻辑，学习“先思考再决策”）。实验证明，这种“中训练”为后续强化学习提供了更好的初始化，性能提升高达6.4%，且一个700M参数的小模型竟能在某些任务上超越比自身大十几倍的模型，揭示了参数效率的新Scaling Law。

物理世界：AI Agent 的下一个战场

Figure 03的33小时直播：物理AI的“诺曼底时刻”

如果说“中训练”解决了Agent如何理解世界的基础问题，那么物理AI（Physical AI）则是在真实世界中的终极考验。2026年5月14日，美国Figure AI进行了一场全程无剪辑直播：Figure 03人形机器人连续工作33小时，自主分拣超过4万件快递包裹，零人工干预，效率是人工的1.8倍，不规则包裹识别率高达99.7%。机器人甚至自己更换电池、进行诊断。这标志着人工智能正式从“说话”走向“动手”。物理AI的核心是在真实环境中构建“感知→决策→验证→执行→反馈”的闭环。其中，VLA（Vision-Language-Action）模型作为第一块基石，让机器人能够端到端地理解指令并执行动作。但第一代VLA只能处理“当下”，无法预测“未来”。真正决定性的突破出现在2026年：世界模型与VLA深度融合，不再拼装而是“长在一起”。智平方发布的Video2Act技术将世界模型直接嵌入VLA内部，机器人在“想”如何行动的同时，已经在“预演”动作执行后的结果并同步调整策略，实现信息零损耗的端到端控制。中美路线由此分野：美国走全栈技术制高点（英伟达Cosmos平台、Figure Helix系统），中国则凭借全球最丰富的制造业场景实现工程化落地（智平方惠科千台订单、宇树5500台出货）。

51Claw与芯片巨头共识：谁在铺设物理Agent的跑道？

物理Agent的价值不可能永远困在数字屏幕里。COMPUTEX 2026上，芯片巨头们达成罕见共识：AI Agent时代已至，而推理能力正取代模型训练成为新的算力瓶颈。黄仁勋直言，AI正成为GDP的直接生成器，Token则是新“大宗商品”。但物理世界的Agent面临核心难题：空间理解、长序执行与Sim2Real（从仿真到现实）鸿沟。矿山掘进、工厂装配等任务往往包含数十步连续操作，仿真环境中训练再完美的策略，迁移到真实世界仍会因摩擦系数、传感器噪声等产生偏差。2026年3月，51WORLD发布了专为具身智能打造的Agent底座系统——51Claw，深度融合51WorldModel与开源AI Agent平台OpenClaw，构建起从“物理还原”到“仿真训练”再到“无损部署”的完整闭环。其高保真仿真平台可达92%以上摄像头置信度、95%以上激光雷达置信度、99.9%合成数据标注精度。2026年5月，国家启动矿山机器人应用验证试点，物理Agent第一次有了明确的上岗标准。当AI Agent开始走出屏幕，踏入矿山、驶上道路、走进工厂，它们需要的不是又一个数字助手，而是一整套能够支撑空间理解、任务规划、仿真训练、无损部署的“底座”。

从三段式训练到正向飞轮：2026开启智能体元年

传统AI训练是“预训练+微调”的二段式，但对于需要与世界深度交互的Agent，研究者提出了“预训练+中训练+后训练”的三段式——让Agent先理解世界，再改变世界。而物理世界的规模化部署正在启动正向飞轮：机器人干得越多，数据越多，AI越聪明，机器人越能干。Figure 03那场33小时直播，背后是Helix 02系统用1000小时人类运动数据训练，直接替代了109504行手工C++代码。英伟达Cosmos平台、谷歌Genie系列、阿里达摩院RynnBrain、蚂蚁灵波LingBot系列——全球科技巨头和中国的头部企业都在往同一个方向使劲：让AI拥有对物理世界的理解、预测和操控能力。展望未来三到五年，AI创新将沿三条主线爆发：AI Agent重塑所有数字工作，AI赋能科学带来基础科学突破，AI与硬件协同设计催生新一代物理工具。2026年被视为物理AI的关键转折年——当机器人效率从人工的1.8倍变成5倍、10倍，成本降到10万以内，人形机器人将像当年新能源汽车一样加速渗透制造业，并最终走出工厂，走进物理世界的每一个角落。

物理世界：AI Agent 的下一个战场

从“刷榜竞赛”到“营收为王”：硅谷风向的急转弯

Meta的“早期经验”：让Agent在试错中学会因果推理

Figure 03的33小时直播：物理AI的“诺曼底时刻”

51Claw与芯片巨头共识：谁在铺设物理Agent的跑道？

从三段式训练到正向飞轮：2026开启智能体元年

链接失效反馈