老黄的Cosmos 3刚发一天，就被一家中国公司反超了

1 个月前

AI资讯

67 阅读

英伟达具身智能物理AI 千寻智能

英伟达Cosmos 3发布仅一天，千寻智能Spirit v1.6登顶RoboArena

6月1日，黄仁勋在GTC大会上重磅发布英伟达全新物理AI模型Cosmos 3，号称全球首个完全开放的全能模型，原生具备视觉推理、世界生成和动作生成能力。然而仅仅一天后，由UC Berkeley、Stanford、NVIDIA等机构联合发起的RoboArena榜单更新，中国公司千寻智能的Spirit v1.6正式反超Cosmos 3，登上全球第一。这一戏剧性反转迅速引发行业热议——在硅谷巨头与顶尖高校主导的“客场”榜单上，中国企业第一次拿下了具身智能领域的头把交椅。

RoboArena：不是静态跑分，而是真机双盲对抗

RoboArena被视作具身智能界的LMArena，但比拼的不是模型回答质量，而是机器人策略在真实世界中完成任务的真实能力。其机制包含四大核心：

分布式协作：扩大任务和环境的覆盖面，避免单一场景偏倚；
双盲对决：降低评测中的主观偏见，确保结果公正；
Elo式动态排名：榜单像体育赛事一样持续更新，体现模型实时水平；
开放评测网络：让更多模型被放到同一个真实世界擂台上接受检验。

这套机制将具身智能评测从传统的“仿真跑分”推向“真机对抗”。千寻智能Spirit v1.6能在这样的体系下登顶，意味着其在多任务执行、真实环境适应和泛化能力上已进入全球第一梯队。

老黄的Cosmos 3刚发一天，就被一家中国公司反超了

真机对决：打开笔记本、抓取小物体，差距一目了然

榜单数字背后，真实双盲对比视频更具说服力。以下几组任务展示了Spirit v1.6与对手的显著差距：

打开笔记本电脑：机器人需识别笔记本位置和朝向，判断接触点与施力方式，再完成翻开动作。Spirit v1.6动作衔接自然，快速完成任务；而Cosmos 3几乎没有形成有效尝试。
抓取并放置小型物体：考验机器人对小型物体的识别、定位和精细操作能力。Spirit v1.6完成了识别、抓取和放置，虽有一次短暂调整，但整体动作链条连贯；相比之下，pi 0.5既未能识别目标，也未能完成有效抓取。

这些视频直观说明，Spirit v1.6不仅能在评测中拿到高分，更能把“看见、判断、抓取、放置”这一整套操作链条在真实环境中跑通。

从v1.5到v1.6：持续迭代的闭环与真实数据战略

今年稍早，千寻智能Spirit v1.5已在RoboChallenge真机评测中拿到第一，取得66.09分、50.33%成功率，超过Physical Intelligence的pi 0.5。从v1.5到v1.6时间并不长，但千寻智能依靠一套持续的迭代机制实现了反超：持续采集真实场景数据，持续分析失败原因，把评测结果反馈回训练和工程优化中。

具身智能模型不同于纯软件模型，物理世界中的摩擦、遮挡、延迟等不确定性，无法通过堆训练规模来解决。越往真实场景走，越依赖工程组织能力、数据闭环能力和迭代速度。千寻智能正是把这一闭环跑通了。

在数据层面，不同于英伟达通过Omniverse、遥操作等缓解数据稀缺，千寻智能更强调真实世界数据的持续沉淀。公司已自研7代轻量化可穿戴数采设备，在全国100多个城市搭建分布式数据采集网络，计划2026年内沉淀百万小时级真实世界交互数据。这些数据覆盖家庭、门店、工厂、仓储等复杂场景，正是从90%到99%的关键积累。

资本加注与商业落地：从实验室走向规模化

公开信息显示，千寻智能在3个月内连续完成四轮融资，累计融资金额接近50亿元人民币。A+轮15亿元完成后，资金将投向新一代具身基座模型迭代、全球化真实数据基础设施建设以及多行业规模化商业落地。

资本持续下注背后，是千寻智能已展现出的组合优势：Spirit系列模型的第三方评测表现、真实世界数据采集体系，以及多场景商业落地进展：

与博世集团推进全球工业场景合作，验证机器人在复杂工业流程中的执行能力；
与京东战略合作，Moz机器人进入京东MALL线下门店，承担咖啡制作等服务任务；
小墨机器人落地宁德时代动力电池PACK产线，单日工作量达到人工的3倍。

这些真实场景的反复验证，说明具身智能正在从实验室技术展示，进入更开放、更动态、更接近真实应用的阶段。谁能更快建立真实数据闭环，谁能更稳定地把场景反馈转化为模型进步，谁就更可能在物理AI的下一阶段竞争中占据主动。千寻智能正在走的，正是这条最难、也最关键的路。

老黄的Cosmos 3刚发一天，就被一家中国公司反超了

英伟达Cosmos 3发布仅一天，千寻智能Spirit v1.6登顶RoboArena

RoboArena：不是静态跑分，而是真机双盲对抗

真机对决：打开笔记本、抓取小物体，差距一目了然

从v1.5到v1.6：持续迭代的闭环与真实数据战略

资本加注与商业落地：从实验室走向规模化

链接失效反馈