决胜物理世界:AI自主可控的下一程,由守转攻

英伟达官宣:物理AI接棒生成式AI,成为下一场智能浪潮

在“新智元十周年峰会”上,NVIDIA工程和解决方案副总裁赖俊杰明确宣告,继“生成式AI”与“智能体AI”之后,物理AI已成英伟达下一个十年战略核心。赖俊杰指出,当前大多数AI仍困于数字世界——生成图像、语音搜索、广告推荐;而物理AI要让机器理解重力、摩擦、碰撞等真实物理规则,并能在开放环境中自主“感知—推理—行动—反馈”。黄仁勋更是在2026年CES上断言:“物理AI的‘ChatGPT时刻’已经到来。”他按时间线梳理了AI四阶段演进:感知AI→生成AI→代理AI→物理AI,并强调物理AI的关键在于AI与物理世界的深度融合,让自主机器(机器人、自动驾驶汽车等)在真实世界中执行复杂操作。

为了给物理AI铺路,英伟达今年年初开源了Cosmos世界基础模型,覆盖超2000万小时真实训练数据,支持预训练、后训练、微调全流程,免费商用后下载量已突破200万次。同时面向自动驾驶场景推出开源推理模型Alpamayo,采用视觉—语言—行动架构,能“看懂”复杂路况并理解交通参与者的意图。赖俊杰特别提到,物理AI的测试与验证成本极高,英伟达通过Omniverse构建虚拟仿真环境,把“现实测试从一台车扩展到100台车”的难题,转化为“在数据中心里从1台机器扩展到1000台机器”的可规模化方案。

从读懂屏幕到理解重力:物理AI如何重塑工业与生活

科技日报报道指出,物理AI最有可能率先在智能科学发现和智能工业制造中落地。在智能制造领域,传统产线依赖固定程序,变更即需停机;而搭载物理AI的柔性产线可实时感知物料位置、检测缺陷、动态优化节奏。例如某新能源电池厂借助英伟达Omniverse数字孪生系统,设备利用率提升35%,能耗降低20%;特斯拉工厂的焊接机器人在物理AI辅助下精度突破0.1毫米,甚至能双手协同完成精密作业。黄仁勋预言:“未来十年,工厂将由AI协调的机器人团队运营。”

决胜物理世界:AI自主可控的下一程,由守转攻

自动驾驶则是物理AI的“主战场”。基于物理AI的Alpamayo模型不只“看见”路况,更能“理解”交通参与者行为背后的因果关系。小鹏自动驾驶系统融合物理AI后,应对恶劣天气能力提升30%;特斯拉Optimus机器人通过虚拟训练,动作精度提高50倍。在医疗领域,达芬奇手术机器人集成物理AI后,术中出血量减少40%;超声穿刺机器人在虚拟器官模型训练后,操作失误率下降60%。中国科学技术大学教授王翔强调,物理AI的核心是将“假设—实验—分析—迭代”转化为可规模化的自动闭环,驱动自动化实验平台进行高通量探索,加速新材料、新药研发。

北京队亮剑:全球首个通用世界基座模型问世,扭转“守势”局面

在北京智源大会上,智源研究院发布了世界模型最新成果——悟界·Physis-v0.1悟界·RoboBrain Orca。其中,Physis-v0.1是全球首款通用世界基座模型,专门弥补主流AI模型不懂真实物理规则、物理推演可信度低、长程时序记忆缺失的短板。它构筑了真实物理世界人工智能的底层核心引擎,能实现物理交互、感知与决策的统一。悟界·RoboBrain Orca则是以“下一个物理状态预测”为核心的具身大脑,推动AI从理解文本走向感知、预测物理世界并与之交互。

智源研究院院长王仲远指出,过去AI多停留在聊天、写代码、生图等“虚拟”层面,而视频模型能生成“天上飞的猪”——这在数字世界是趣味,在物理世界却是灾难。世界模型必须做到四个一致性:物理一致性(遵守真实物理规律)、动作因果性(理解动作与状态变化的因果关联)、长程可推演性(保持长时间逻辑连贯不“失忆”)、通用泛化性(一个基座模型适配多种场景)。王仲远强调:“真正的世界模型,必须能理解和推理真实物理世界的时间、空间、物理规律,并具备主动交互的能力。”

与大语言模型时代海外巨头具备极大先发优势不同,在这一全新赛道上,中国科研界已不再是跟随者。“我们已经有了自己独立且原创的技术路径,甚至开始去定义问题、定义技术路线本身,在世界模型这片无人区,中国正与世界处于同一起跑线。”王仲远说。摩根士丹利预测,到2035年世界模型赋能的产业规模将达10万亿美元;国元证券也提出,2030年全球搭载世界模型的机器人市场将突破3万亿元。

自主可控的底层突破:从“预测Token”到“预测状态”,AI for Science加速

智源大会上还揭示了物理AI底层范式的根本转移:世界模型的下一个方向,是从传统的“Next Token Prediction”跃迁到“Next State Prediction”。这意味着AI不仅能生成文本或视频,更能预测物理世界中的状态变化——例如机器人识别“杯子在桌子边缘”后,能预判“杯子掉下去会摔碎”,甚至分辨“盖好盖子”与“没盖好盖子”的水杯跌落带来的不同后果。智源研究院将这一思路具象化到“LVM(语言视频模型)→VLM/VLA(视觉语言/行动模型)→视频为3D结构模型→以视觉为中心的模型”的多路径探索中,并提出了“统一潜空间”方案——将图像、视频、3D等多模态数据压缩到同一潜空间进行预训练,实现“状态感知、因果推演、全局泛化”。

在AI for Science方面,智源发布了OpenComplex 2.5版本,能精准预测多聚体蛋白和IDP(固有无序蛋白)结构,为药物研发全流程提供此前不可及的支持。同时,智源与多家医院合作开展睡眠呼吸暂停等研究,通过脑电、心电等生理信号的联合建模,推动医疗AI从“辅助诊断”走向“主动干预”。这些底层基础设施的突破,正是中国在物理AI领域实现“自主可控”的关键支点。

挑战与责任:成本、伦理与信任的攻坚战

物理AI的规模化应用仍面临多重关卡。首先是成本问题:真实交互数据昂贵、稀缺且反馈延迟,长尾工况难以覆盖。一辆无人车可能需要行驶数百万公里才能遭遇一次极端天气下的紧急场景,而每一次失误都可能代价高昂。英伟达通过仿真和Cosmos模型人为注入极端要素(如突然有动物穿越车前)来缓解这一难题。其次,物理AI必须在开放环境中应对未知场景、实时干扰,并在仿真与现实的偏差中保持鲁棒性与可控性。

伦理与责任问题同样不容忽视。若物理AI驱动的无人车发生事故,责任应归于开发者、运营商还是AI自身?王翔强调:“物理AI必须具备内生安全机制,叠加可验证的安全约束、全链路审计与合规闭环,才能支撑其规模化部署。”此外,人机信任的鸿沟依然存在——许多人担忧被AI取代或对机器决策缺乏信心。唯有通过透明设计、渐进部署与持续沟通,才能赢得社会接纳。智源研究院也同步开源了FlagOS 2.1操作系统,统一多芯片生态,通过开放协作降低硬件成本,并呼吁全行业共同制定物理AI的安全标准和伦理框架。

当机器人开始理解重力,当自动驾驶汽车学会预判风雨中的湿滑路面,当手术机械臂懂得生命的脆弱与组织的柔软——机器正在获得某种意义上的“具身意识”。从“由守转攻”的这一刻起,物理AI的决胜之路才刚刚开始。