让机器人看懂世界:英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3
世界模型首次统一三大能力:生成、推理与仿真
英伟达官方确认,Cosmos 3是“第一个统一世界生成、物理AI推理和动作仿真的世界基础模型”。此前的机器人AI往往只能完成单一任务,而Cosmos 3打破了这一局限:它不仅能根据指令生成逼真的物理世界视频(世界生成),还能对新场景进行物理逻辑推理(物理AI推理),并最终输出可执行的机器人动作序列(动作仿真)。这意味着机器人在执行抓取、移动等操作前,可以像人类一样先在“大脑”中预演一遍,大幅降低真实环境中的试错成本。该模型已在Hugging Face和GitHub上全开源,提供防护栏与分词器,以解决物理AI训练中数据稀缺的痛点。
Predict、Transfer、Reason:三个模型如何分工协作
Cosmos平台由三款核心模型构成,它们各自专精并协同工作:

- Cosmos Predict:负责生成未来视频帧或补全缺失帧,使机器人能“预知”物体运动轨迹与物理变化。例如,预测一个杯子被推倒后的掉落路径。
- Cosmos Transfer:将来自NVIDIA Omniverse的仿真指令视频转换为照片级逼真的合成数据,实现虚拟世界与真实世界的无缝桥接,帮助AI模型在低成本环境下完成海量训练。
- Cosmos Reason:对实时或录制的视频流进行分析、总结与交互,让AI智能体能“看懂”视频中发生了什么,并做出逻辑判断。例如,结合NVIDIA Blueprint进行视频搜索和总结,构建可扩展的实时视频理解智能体。
三者构成闭环:Reason理解场景→Predict预测变化→Transfer生成可用数据,最终驱动机器人执行精准动作。
Omniverse+Cosmos:合成数据生成的新范式
传统物理AI训练需要海量真实场景数据,成本高昂且难以获取。Cosmos与NVIDIA Omniverse深度结合,开创了全新的数据生成模式:开发者可在Omniverse中搭建高保真数字孪生环境,将仿真指令作为输入传给Cosmos Transfer模型,Cosmos自动生成可控的、照片级逼真的合成视频数据。这些数据可用于训练机器人视觉与避障模型,再通过Cosmos Predict验证动作合理性,形成“虚拟训练→真实部署”的闭环。英伟达还推出了NVIDIA RTX PRO 6000 Blackwell系列服务器,专门加速这一训练、合成数据生成、仿真和推理的全流程。
全球机器人巨头集体站台,生态加速成型
Cosmos并非孤立的技术发布。英伟达已携手全球机器人生态系统,包括ABB Robotics、智元机器人、Agility、Figure、FANUC、KUKA等超十家行业领导者。具体合作包括:
- FANUC、ABB等工业机器人巨头正将NVIDIA Omniverse与Isaac仿真框架集成至虚拟调试方案,通过数字孪生验证复杂产线。
- 人形机器人领军企业(如1X、智元、Boston Dynamics、Figure)基于Cosmos世界模型与Isaac Lab加速开发,其中Isaac Lab 3.0抢先体验版新增多物理场仿真与灵巧操作支持。
- Skild AI与Foxconn合作,在Blackwell生产线上实现高精度装配,将通用机器人智能嵌入制造流程。
- 云计算平台如Microsoft Azure、Nebius、阿里云等也已集成NVIDIA物理AI数据工厂蓝图,为开发者提供端到端生成能力。
让机器人先“想象”再行动:物理AI的奇点时刻
Cosmos 3的发布标志着物理AI从“感知-决策-执行”的传统流水线,升级为“世界理解-物理推理-动作仿真-执行输出”的智能闭环。这直接呼应了业界关于Physical AI奇点爆发的讨论——世界模型正在重新定义物理AI的标准。对于开发者而言,过去需要为每个机器人编写大量场景专用代码,如今通过Cosmos平台,机器人可以借助通用世界模型快速适应新场景,仅需极少重新训练即可掌握新任务。正如英伟达所言,Cosmos让机器人第一次有了在输出动作前先“想象”的能力,这将是机器人从工厂走向复杂真实世界的关键一步。