物理世界:AI Agent 的下一个战场

从“刷榜竞赛”到“营收为王”:硅谷风向的急转弯

过去两年,AI行业的焦点曾高度集中在底层大模型的能力竞赛上,但这一风向正在发生根本性转变。硅谷硬科技投资机构FoundersX的合伙人观察到,AI创业的重心已从“追逐模型能力”转向“产品和营收导向”。这一转变背后是技术本身跨过了“临界点”——大模型的能力已经足够好,不再是制约商业应用的瓶颈。他们投资组合中多家成立仅两到三年的初创公司,在一年内就实现了500万至1000万美元的年化收入(ARR),且增长速度惊人。与此同时,一个全新的编程范式——“日抛型编程”——正在兴起:借助AI Agent,个人可以即时生成、使用并抛弃代码,解决当下的自动化任务。例如,一位用户使用本地Claude Code仅用5分钟就完成了原本需要繁琐手工操作的书单封面拼接任务,而这份代码在任务完成后即可被“扔掉”。这标志着AI正在从“生成内容”进入“执行任务”阶段,而执行任务的核心战场,正从数字屏幕扩展到真实物理世界。

Meta的“早期经验”:让Agent在试错中学会因果推理

然而,要让预训练模型蜕变为能在物理世界自主执行复杂长程任务的Agent,面临一个关键瓶颈:反馈机制的困境。现有主流方法要么是成本高昂的模仿学习(只告诉模型“怎么做”,不教“不这么做会怎样”),要么是依赖稀疏奖励的强化学习(在真实任务中奖励往往缺失或延迟)。2025年10月,Meta等机构发表的论文《Agent Learning via Early Experience》提出了第三条路——“中训练”范式,试图用廉价而有效的反馈形式搭建关键桥梁。其核心思想是:与其让Agent模仿专家或等待奖励,不如让它从自己的“试错”中学习——即便没有奖励,每次行动后环境发生的状态变化本身,就是极具价值且免费的监督信号。例如,学习订机票时,传统模仿学习只给成功录屏;而“早期经验”让Agent主动尝试点错日期、填错证件号,然后观察报错信息、页面跳转等环境反应。论文设计了两种具体策略:隐式世界建模(训练Agent根据“当前状态+动作”预测“未来状态”,在没有奖励的情况下悟出世界运行规律)和自我反思(让Agent借助强大语言模型的点评,分析专家选择的因果逻辑,学习“先思考再决策”)。实验证明,这种“中训练”为后续强化学习提供了更好的初始化,性能提升高达6.4%,且一个700M参数的小模型竟能在某些任务上超越比自身大十几倍的模型,揭示了参数效率的新Scaling Law。

物理世界:AI Agent 的下一个战场

Figure 03的33小时直播:物理AI的“诺曼底时刻”

如果说“中训练”解决了Agent如何理解世界的基础问题,那么物理AI(Physical AI)则是在真实世界中的终极考验。2026年5月14日,美国Figure AI进行了一场全程无剪辑直播:Figure 03人形机器人连续工作33小时,自主分拣超过4万件快递包裹,零人工干预,效率是人工的1.8倍,不规则包裹识别率高达99.7%。机器人甚至自己更换电池、进行诊断。这标志着人工智能正式从“说话”走向“动手”。物理AI的核心是在真实环境中构建“感知→决策→验证→执行→反馈”的闭环。其中,VLA(Vision-Language-Action)模型作为第一块基石,让机器人能够端到端地理解指令并执行动作。但第一代VLA只能处理“当下”,无法预测“未来”。真正决定性的突破出现在2026年:世界模型与VLA深度融合,不再拼装而是“长在一起”。智平方发布的Video2Act技术将世界模型直接嵌入VLA内部,机器人在“想”如何行动的同时,已经在“预演”动作执行后的结果并同步调整策略,实现信息零损耗的端到端控制。中美路线由此分野:美国走全栈技术制高点(英伟达Cosmos平台、Figure Helix系统),中国则凭借全球最丰富的制造业场景实现工程化落地(智平方惠科千台订单、宇树5500台出货)。

51Claw与芯片巨头共识:谁在铺设物理Agent的跑道?

物理Agent的价值不可能永远困在数字屏幕里。COMPUTEX 2026上,芯片巨头们达成罕见共识:AI Agent时代已至,而推理能力正取代模型训练成为新的算力瓶颈。黄仁勋直言,AI正成为GDP的直接生成器,Token则是新“大宗商品”。但物理世界的Agent面临核心难题:空间理解、长序执行与Sim2Real(从仿真到现实)鸿沟。矿山掘进、工厂装配等任务往往包含数十步连续操作,仿真环境中训练再完美的策略,迁移到真实世界仍会因摩擦系数、传感器噪声等产生偏差。2026年3月,51WORLD发布了专为具身智能打造的Agent底座系统——51Claw,深度融合51WorldModel与开源AI Agent平台OpenClaw,构建起从“物理还原”到“仿真训练”再到“无损部署”的完整闭环。其高保真仿真平台可达92%以上摄像头置信度、95%以上激光雷达置信度、99.9%合成数据标注精度。2026年5月,国家启动矿山机器人应用验证试点,物理Agent第一次有了明确的上岗标准。当AI Agent开始走出屏幕,踏入矿山、驶上道路、走进工厂,它们需要的不是又一个数字助手,而是一整套能够支撑空间理解、任务规划、仿真训练、无损部署的“底座”。

从三段式训练到正向飞轮:2026开启智能体元年

传统AI训练是“预训练+微调”的二段式,但对于需要与世界深度交互的Agent,研究者提出了“预训练+中训练+后训练”的三段式——让Agent先理解世界,再改变世界。而物理世界的规模化部署正在启动正向飞轮:机器人干得越多,数据越多,AI越聪明,机器人越能干。Figure 03那场33小时直播,背后是Helix 02系统用1000小时人类运动数据训练,直接替代了109504行手工C++代码。英伟达Cosmos平台、谷歌Genie系列、阿里达摩院RynnBrain、蚂蚁灵波LingBot系列——全球科技巨头和中国的头部企业都在往同一个方向使劲:让AI拥有对物理世界的理解、预测和操控能力。展望未来三到五年,AI创新将沿三条主线爆发:AI Agent重塑所有数字工作,AI赋能科学带来基础科学突破,AI与硬件协同设计催生新一代物理工具。2026年被视为物理AI的关键转折年——当机器人效率从人工的1.8倍变成5倍、10倍,成本降到10万以内,人形机器人将像当年新能源汽车一样加速渗透制造业,并最终走出工厂,走进物理世界的每一个角落。