小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

1 个月前

AI资讯

42 阅读

世界模型强化学习 [小米汽车智驾]

强化学习 + 世界模型：智驾从“模仿”迈向“认知”

小米汽车在广州车展上正式发布 Xiaomi HAD 增强版，其核心技术突破是首次大规模引入 「强化学习 + 世界模型」训练框架。不同于传统端到端模型依赖海量真实路测数据（模仿学习），新框架让系统在虚拟世界中自主“试错”——走对路加分、走错扣分。通过这种奖励机制，模型无需依赖稀缺场景的真实数据，就能自主探索最优驾驶策略。这一转变标志着小米辅助驾驶从“数据驱动”正式跨入 “认知驱动”阶段，系统能力不再受限于训练数据的边界。

小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

重建 + 生成一体化：高保真虚拟环境的“造物主”

世界模型的核心在于两大能力：场景重建与环境生成。一方面，它能将真实世界精准映射到数字空间，并支持场景编辑——比如在路线上随机加入一辆加塞车或模拟碰撞；另一方面，它能生成可控的环境变换，如晴天、雨天、大雾及昼夜交替等复杂路况。通过自建的大规模4D数字资产库，小米世界模型可源源不断产出海量、高保真、可复现的虚拟训练场景。这种 “重建+生成”一体化能力，确保强化学习的训练环境既真实又高效，为模型提供了近乎无限的练习场。

主流基准测试全面 SOTA：学术权威与工程落地的双重认证

小米世界模型已获得全球顶级学术会议的一致认可。在计算机视觉顶会 ICCV 2025 自动驾驶仿真合成数据专业挑战赛中，小米的 ViSE 算法斩获冠军；同时，其生成模型相关论文被人工智能/机器学习顶会 NeurIPS 收录。此外，小米还正式发布并开源了 Xiaomi OneVL 模型——业内首次通过潜空间推理，将视觉语言动作模型（VLA）与世界模型统一至同一框架。在推理、规划等多个主流基准测试中，Xiaomi OneVL 刷新了潜空间推理方法的性能上限，且精度优于显式思维链方法，速度与仅答案预测方案持平。这些成就充分证明该框架在学术前沿与量产工程上的领先地位。

纵向更丝滑、横向更果断、路口更精准：三大行车能力的质变

经过强化学习+世界模型的持续训练，Xiaomi HAD 增强版在三大核心场景实现显著提升：纵向控制方面，系统能更精准预测旁车加塞，减速不再突兀，跟车舒适感大增；横向变道方面，系统学会专业司机的控车方式，超车并线和障碍物绕行决策更果断、安全时机判断更精准；路径选择方面，系统能提前理解导航意图，即使在左转道位于最右侧的特殊路口，也能从容规划路径，大幅减少走错路、选错道的概率。这些能力的系统性跃升，最终转化为全场景通行效率与安心感的质变。

开源与生态：加速全球智驾研发与技术普惠

小米不仅将世界模型应用于量产车，更通过全面开放推动行业进步。Xiaomi OneVL 的模型权重、训练及推理代码、技术报告和项目主页均已公开，全球开发者可直接使用。在重庆车展发布的 Xiaomi HAD 增强版也将随 Xiaomi HyperOS 1.11 系列通过 OTA 向用户推送，同时新增紧急转向辅助 AES、前/后向低速防碰撞辅助等功能。结合小米在 AI 领域超70亿元的年度投入、超过1800人的智能驾驶团队，以及北京、上海、武汉三大研发中心，小米正在构建从底层算法到量产落地的完整闭环，让“认知驱动”的智能驾驶惠及更多用户。

小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

强化学习 + 世界模型：智驾从“模仿”迈向“认知”

重建 + 生成一体化：高保真虚拟环境的“造物主”

主流基准测试全面 SOTA：学术权威与工程落地的双重认证

纵向更丝滑、横向更果断、路口更精准：三大行车能力的质变

开源与生态：加速全球智驾研发与技术普惠

链接失效反馈