老黄的Cosmos 3刚发一天,就被一家中国公司反超了
英伟达Cosmos 3发布仅一天,千寻智能Spirit v1.6登顶RoboArena
6月1日,黄仁勋在GTC大会上重磅发布英伟达全新物理AI模型Cosmos 3,号称全球首个完全开放的全能模型,原生具备视觉推理、世界生成和动作生成能力。然而仅仅一天后,由UC Berkeley、Stanford、NVIDIA等机构联合发起的RoboArena榜单更新,中国公司千寻智能的Spirit v1.6正式反超Cosmos 3,登上全球第一。这一戏剧性反转迅速引发行业热议——在硅谷巨头与顶尖高校主导的“客场”榜单上,中国企业第一次拿下了具身智能领域的头把交椅。
RoboArena:不是静态跑分,而是真机双盲对抗
RoboArena被视作具身智能界的LMArena,但比拼的不是模型回答质量,而是机器人策略在真实世界中完成任务的真实能力。其机制包含四大核心:
- 分布式协作:扩大任务和环境的覆盖面,避免单一场景偏倚;
- 双盲对决:降低评测中的主观偏见,确保结果公正;
- Elo式动态排名:榜单像体育赛事一样持续更新,体现模型实时水平;
- 开放评测网络:让更多模型被放到同一个真实世界擂台上接受检验。
这套机制将具身智能评测从传统的“仿真跑分”推向“真机对抗”。千寻智能Spirit v1.6能在这样的体系下登顶,意味着其在多任务执行、真实环境适应和泛化能力上已进入全球第一梯队。

真机对决:打开笔记本、抓取小物体,差距一目了然
榜单数字背后,真实双盲对比视频更具说服力。以下几组任务展示了Spirit v1.6与对手的显著差距:
- 打开笔记本电脑:机器人需识别笔记本位置和朝向,判断接触点与施力方式,再完成翻开动作。Spirit v1.6动作衔接自然,快速完成任务;而Cosmos 3几乎没有形成有效尝试。
- 抓取并放置小型物体:考验机器人对小型物体的识别、定位和精细操作能力。Spirit v1.6完成了识别、抓取和放置,虽有一次短暂调整,但整体动作链条连贯;相比之下,pi 0.5既未能识别目标,也未能完成有效抓取。
这些视频直观说明,Spirit v1.6不仅能在评测中拿到高分,更能把“看见、判断、抓取、放置”这一整套操作链条在真实环境中跑通。
从v1.5到v1.6:持续迭代的闭环与真实数据战略
今年稍早,千寻智能Spirit v1.5已在RoboChallenge真机评测中拿到第一,取得66.09分、50.33%成功率,超过Physical Intelligence的pi 0.5。从v1.5到v1.6时间并不长,但千寻智能依靠一套持续的迭代机制实现了反超:持续采集真实场景数据,持续分析失败原因,把评测结果反馈回训练和工程优化中。
具身智能模型不同于纯软件模型,物理世界中的摩擦、遮挡、延迟等不确定性,无法通过堆训练规模来解决。越往真实场景走,越依赖工程组织能力、数据闭环能力和迭代速度。千寻智能正是把这一闭环跑通了。
在数据层面,不同于英伟达通过Omniverse、遥操作等缓解数据稀缺,千寻智能更强调真实世界数据的持续沉淀。公司已自研7代轻量化可穿戴数采设备,在全国100多个城市搭建分布式数据采集网络,计划2026年内沉淀百万小时级真实世界交互数据。这些数据覆盖家庭、门店、工厂、仓储等复杂场景,正是从90%到99%的关键积累。
资本加注与商业落地:从实验室走向规模化
公开信息显示,千寻智能在3个月内连续完成四轮融资,累计融资金额接近50亿元人民币。A+轮15亿元完成后,资金将投向新一代具身基座模型迭代、全球化真实数据基础设施建设以及多行业规模化商业落地。
资本持续下注背后,是千寻智能已展现出的组合优势:Spirit系列模型的第三方评测表现、真实世界数据采集体系,以及多场景商业落地进展:
- 与博世集团推进全球工业场景合作,验证机器人在复杂工业流程中的执行能力;
- 与京东战略合作,Moz机器人进入京东MALL线下门店,承担咖啡制作等服务任务;
- 小墨机器人落地宁德时代动力电池PACK产线,单日工作量达到人工的3倍。
这些真实场景的反复验证,说明具身智能正在从实验室技术展示,进入更开放、更动态、更接近真实应用的阶段。谁能更快建立真实数据闭环,谁能更稳定地把场景反馈转化为模型进步,谁就更可能在物理AI的下一阶段竞争中占据主动。千寻智能正在走的,正是这条最难、也最关键的路。