世界模型榜首易主!跨维智能登顶WorldArena

英伟达谷歌重兵把守,国产模型“虎口夺食”

全球具身世界模型权威评测基准WorldArena最新榜单揭晓,跨维智能凭借其自研的DSCFuncWorld模型,在Track 2(Data Engine)赛道斩获全球第一。这一赛道被公认为技术含金量最高、实战门槛最硬的“皇冠”,英伟达、谷歌等国际巨头均在此重金投入。跨维智能不仅与第二名拉开显著分差,更大幅超越WoW、BLM等一众国际知名模型,刷新了该赛道全球最优成绩,标志着国产具身智能在世界模型核心领域实现了从“跟跑”到“领跑”的跨越。

Track 2为何是硬核标尺?不比画面比落地

WorldArena由清华大学联合普林斯顿大学等顶尖机构构建,设有两大赛道。Track 1侧重视觉画面与动态效果,偏向技术展示;而跨维智能登顶的Track 2,则是衡量世界模型产业价值的“试金石”。该赛道摒弃了“画面是否逼真”的传统评判,转而考核模型作为数据合成引擎、策略评估工具与行动规划载体的全链路落地能力。参赛模型需基于初始场景与文本指令,自主模拟完整机器人交互流程、生成可训练数据,并以机器人实际任务成功率作为最终判据。这一设计直击行业痛点:视觉逼真的模型往往无法在真实机器人上执行,而Track 2恰好检验了模型从“虚拟推演”到“真实执行”的硬实力。

世界模型榜首易主!跨维智能登顶WorldArena

因果隐空间建模:DexWorldModel的独门秘籍

跨维智能本次冲榜的DSCFuncWorld模型,源自其自研核心底座DexWorldModel。该模型采用“因果隐空间建模”技术,依托DINO语义特征空间精准建模未来世界状态,强化对物体纹理、物理规则及环境关联的鲁棒表达。与传统模型仅追求视觉一致性不同,DexWorldModel生成的推演视频本身即具备“可训练、可迁移、可执行”的特质——这正是通用具身智能产业化的核心瓶颈。通过轻量化适配,该模型可快速产出高质量推演数据,极致发挥数据引擎与策略评估价值。

此外,团队推出的EVA技术框架(Aligning Video World Models with Executable Robot Actions)进一步补足可执行性缺口。该框架通过逆动力学奖励机制,强制对齐视频生成与机器人真实动作逻辑,彻底解决“视觉逼真但无法落地”的顽疾,让生成的推演轨迹更贴合实际作业需求。

补齐数据短板:EmbodiChain全链路数据基建

跨维智能登顶并非单点技术突破,而是长期深耕数据与模型双轮驱动的结果。依托自研具身数据基建EmbodiChain,团队构建了覆盖“资产生成—场景布局—可达轨迹采样—失败案例恢复—在线数据回流”的完整数据体系。这套体系持续产出物理可信、场景多元、任务覆盖全面的高品质训练数据,大幅提升了合成数据对机器人策略训练的赋能效果,并增强了模型在多样化场景下的泛化能力。正是这种从数据源头到模型推演再到策略训练的全链路闭环,使得DSCFuncWorld能够稳定输出高质量、可执行的机器人训练资产,从而在WorldArena的严苛评测中脱颖而出。

从榜单第一到产业落地:跨维智能的具身智能蓝图

此次登顶的意义远不止于榜单排名。跨维智能自研的DexWorldModel世界模型体系,其核心价值在于跳出行业概念内卷,直击具身智能在落地过程中最棘手的系统性问题——数据稀缺、虚实鸿沟、执行不可靠。通过强化模型的环境推演、物理认知与动作预测能力,跨维智能正将虚拟推演高效转化为可用的机器人训练资产,补齐世界模型通往真实物理世界的短板。这为通用具身智能的产业化进程提供了可复用的技术范式:真正的世界模型,不仅要“看懂世界”,更要“驱动世界”。