刚刚,全球⾸个“事件级预测”具身智能世界模型来了!
大晓机器人开悟世界模型3.0:多模态一体化架构出炉
12月18日,大晓机器人在发布会上推出开悟世界模型3.0,采用“多模态理解—生成—预测”一体化架构,性能全面领先国内外主流世界模型。该模型将视觉、语言与动作深度融合,让AI不仅能“看见”当前物理环境,还能对后续事件进行预测——例如,机器人看到一杯水即将倾倒,就能提前调整抓取策略。这种“事件级预测”能力,意味着具身智能体首次具备了类似于人类的因果推理和未来模拟能力。
全球首个具身世界模型综合基准同步亮相
北京人形机器人创新中心在同一时间发布了全球首个针对具身世界模型的综合基准,构建起对世界模型感知理解、预测推理、决策能力的系统评估框架。该基准不仅覆盖了传统像素级预测精度,还从状态级理解和任务级执行两个新维度进行评测,填补了行业空白。开发者可依据该基准快速定位模型短板,推动从实验室到真实场景的落地。
三个抽象级别:从像素到任务的层层突破
为科学衡量世界模型的能力,研究团队给出了三个抽象级别指标:像素预测质量(低级信号保真度)、状态级理解(中间语义认知)和任务性能(高级目标达成)。像素预测确保机器人能生成逼真的未来帧;状态级理解要求模型识别物体属性与时空关系;任务性能则最终衡量机器人能否利用预测完成复杂操作。这种分级方式让不同水平的世界模型有了可比的对标尺度。
世界模型内循环:加速具身智能从感知到决策的闭环
世界模型并非独立模块,而是融入视觉-语言-行动(VLA)与导航(VLN)系统的核心引擎。通过内循环机制,模型持续接收传感器数据、生成未来预测、指导动作规划,再通过执行结果反馈修正预测,形成自主进化的闭环。这种架构使人形机器人能在半结构化甚至非结构化场景中自主应对突发状况(如人体自然挪动、物体意外跌落),向通用具身智能迈出关键一步。