让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

1 个月前

AI资讯

64 阅读

机器人物理AI [英伟达大模型]

世界模型首次统一三大能力：生成、推理与仿真

英伟达官方确认，Cosmos 3是“第一个统一世界生成、物理AI推理和动作仿真的世界基础模型”。此前的机器人AI往往只能完成单一任务，而Cosmos 3打破了这一局限：它不仅能根据指令生成逼真的物理世界视频（世界生成），还能对新场景进行物理逻辑推理（物理AI推理），并最终输出可执行的机器人动作序列（动作仿真）。这意味着机器人在执行抓取、移动等操作前，可以像人类一样先在“大脑”中预演一遍，大幅降低真实环境中的试错成本。该模型已在Hugging Face和GitHub上全开源，提供防护栏与分词器，以解决物理AI训练中数据稀缺的痛点。

Predict、Transfer、Reason：三个模型如何分工协作

Cosmos平台由三款核心模型构成，它们各自专精并协同工作：

让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

Cosmos Predict：负责生成未来视频帧或补全缺失帧，使机器人能“预知”物体运动轨迹与物理变化。例如，预测一个杯子被推倒后的掉落路径。
Cosmos Transfer：将来自NVIDIA Omniverse的仿真指令视频转换为照片级逼真的合成数据，实现虚拟世界与真实世界的无缝桥接，帮助AI模型在低成本环境下完成海量训练。
Cosmos Reason：对实时或录制的视频流进行分析、总结与交互，让AI智能体能“看懂”视频中发生了什么，并做出逻辑判断。例如，结合NVIDIA Blueprint进行视频搜索和总结，构建可扩展的实时视频理解智能体。

三者构成闭环：Reason理解场景→Predict预测变化→Transfer生成可用数据，最终驱动机器人执行精准动作。

Omniverse+Cosmos：合成数据生成的新范式

传统物理AI训练需要海量真实场景数据，成本高昂且难以获取。Cosmos与NVIDIA Omniverse深度结合，开创了全新的数据生成模式：开发者可在Omniverse中搭建高保真数字孪生环境，将仿真指令作为输入传给Cosmos Transfer模型，Cosmos自动生成可控的、照片级逼真的合成视频数据。这些数据可用于训练机器人视觉与避障模型，再通过Cosmos Predict验证动作合理性，形成“虚拟训练→真实部署”的闭环。英伟达还推出了NVIDIA RTX PRO 6000 Blackwell系列服务器，专门加速这一训练、合成数据生成、仿真和推理的全流程。

全球机器人巨头集体站台，生态加速成型

Cosmos并非孤立的技术发布。英伟达已携手全球机器人生态系统，包括ABB Robotics、智元机器人、Agility、Figure、FANUC、KUKA等超十家行业领导者。具体合作包括：

FANUC、ABB等工业机器人巨头正将NVIDIA Omniverse与Isaac仿真框架集成至虚拟调试方案，通过数字孪生验证复杂产线。
人形机器人领军企业（如1X、智元、Boston Dynamics、Figure）基于Cosmos世界模型与Isaac Lab加速开发，其中Isaac Lab 3.0抢先体验版新增多物理场仿真与灵巧操作支持。
Skild AI与Foxconn合作，在Blackwell生产线上实现高精度装配，将通用机器人智能嵌入制造流程。
云计算平台如Microsoft Azure、Nebius、阿里云等也已集成NVIDIA物理AI数据工厂蓝图，为开发者提供端到端生成能力。

让机器人先“想象”再行动：物理AI的奇点时刻

Cosmos 3的发布标志着物理AI从“感知-决策-执行”的传统流水线，升级为“世界理解-物理推理-动作仿真-执行输出”的智能闭环。这直接呼应了业界关于Physical AI奇点爆发的讨论——世界模型正在重新定义物理AI的标准。对于开发者而言，过去需要为每个机器人编写大量场景专用代码，如今通过Cosmos平台，机器人可以借助通用世界模型快速适应新场景，仅需极少重新训练即可掌握新任务。正如英伟达所言，Cosmos让机器人第一次有了在输出动作前先“想象”的能力，这将是机器人从工厂走向复杂真实世界的关键一步。

让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

世界模型首次统一三大能力：生成、推理与仿真

Predict、Transfer、Reason：三个模型如何分工协作

Omniverse+Cosmos：合成数据生成的新范式

全球机器人巨头集体站台，生态加速成型

让机器人先“想象”再行动：物理AI的奇点时刻

链接失效反馈