世界模型榜首易主！跨维智能登顶WorldArena

1 个月前

AI资讯

23 阅读

具身智能世界模型国产模型跨维智能

英伟达谷歌重兵把守，国产模型“虎口夺食”

全球具身世界模型权威评测基准WorldArena最新榜单揭晓，跨维智能凭借其自研的DSCFuncWorld模型，在Track 2（Data Engine）赛道斩获全球第一。这一赛道被公认为技术含金量最高、实战门槛最硬的“皇冠”，英伟达、谷歌等国际巨头均在此重金投入。跨维智能不仅与第二名拉开显著分差，更大幅超越WoW、BLM等一众国际知名模型，刷新了该赛道全球最优成绩，标志着国产具身智能在世界模型核心领域实现了从“跟跑”到“领跑”的跨越。

Track 2为何是硬核标尺？不比画面比落地

WorldArena由清华大学联合普林斯顿大学等顶尖机构构建，设有两大赛道。Track 1侧重视觉画面与动态效果，偏向技术展示；而跨维智能登顶的Track 2，则是衡量世界模型产业价值的“试金石”。该赛道摒弃了“画面是否逼真”的传统评判，转而考核模型作为数据合成引擎、策略评估工具与行动规划载体的全链路落地能力。参赛模型需基于初始场景与文本指令，自主模拟完整机器人交互流程、生成可训练数据，并以机器人实际任务成功率作为最终判据。这一设计直击行业痛点：视觉逼真的模型往往无法在真实机器人上执行，而Track 2恰好检验了模型从“虚拟推演”到“真实执行”的硬实力。

世界模型榜首易主！跨维智能登顶WorldArena

因果隐空间建模：DexWorldModel的独门秘籍

跨维智能本次冲榜的DSCFuncWorld模型，源自其自研核心底座DexWorldModel。该模型采用“因果隐空间建模”技术，依托DINO语义特征空间精准建模未来世界状态，强化对物体纹理、物理规则及环境关联的鲁棒表达。与传统模型仅追求视觉一致性不同，DexWorldModel生成的推演视频本身即具备“可训练、可迁移、可执行”的特质——这正是通用具身智能产业化的核心瓶颈。通过轻量化适配，该模型可快速产出高质量推演数据，极致发挥数据引擎与策略评估价值。

此外，团队推出的EVA技术框架（Aligning Video World Models with Executable Robot Actions）进一步补足可执行性缺口。该框架通过逆动力学奖励机制，强制对齐视频生成与机器人真实动作逻辑，彻底解决“视觉逼真但无法落地”的顽疾，让生成的推演轨迹更贴合实际作业需求。

补齐数据短板：EmbodiChain全链路数据基建

跨维智能登顶并非单点技术突破，而是长期深耕数据与模型双轮驱动的结果。依托自研具身数据基建EmbodiChain，团队构建了覆盖“资产生成—场景布局—可达轨迹采样—失败案例恢复—在线数据回流”的完整数据体系。这套体系持续产出物理可信、场景多元、任务覆盖全面的高品质训练数据，大幅提升了合成数据对机器人策略训练的赋能效果，并增强了模型在多样化场景下的泛化能力。正是这种从数据源头到模型推演再到策略训练的全链路闭环，使得DSCFuncWorld能够稳定输出高质量、可执行的机器人训练资产，从而在WorldArena的严苛评测中脱颖而出。

从榜单第一到产业落地：跨维智能的具身智能蓝图

此次登顶的意义远不止于榜单排名。跨维智能自研的DexWorldModel世界模型体系，其核心价值在于跳出行业概念内卷，直击具身智能在落地过程中最棘手的系统性问题——数据稀缺、虚实鸿沟、执行不可靠。通过强化模型的环境推演、物理认知与动作预测能力，跨维智能正将虚拟推演高效转化为可用的机器人训练资产，补齐世界模型通往真实物理世界的短板。这为通用具身智能的产业化进程提供了可复用的技术范式：真正的世界模型，不仅要“看懂世界”，更要“驱动世界”。

世界模型榜首易主！跨维智能登顶WorldArena

英伟达谷歌重兵把守，国产模型“虎口夺食”

Track 2为何是硬核标尺？不比画面比落地

因果隐空间建模：DexWorldModel的独门秘籍

补齐数据短板：EmbodiChain全链路数据基建

从榜单第一到产业落地：跨维智能的具身智能蓝图

链接失效反馈