2026年的具身智能:不再“讲故事”,而是拼“分数”?
竞争转向:从“讲故事”到“拼分数”
2026年初,RoboChallenge平台发布的年度报告标志着具身智能行业的重大范式转变。过去,该领域更多依赖于演示视频和技术愿景来吸引关注,而RoboChallenge通过一个基于真实机器人硬件的远程评测系统,将竞争拉回到了客观的性能比拼上。
这个由原力灵机Dexmal与Hugging Face联合推出的平台,将VLA(视觉-语言-动作)大模型直接部署在真实的机器人集群上进行“开卷考试”。自2025年10月上线至2026年2月,累计执行的真机测试(Rollouts)已突破4万次,单日提交评测次数最高达181次。Pi0、RDT-1B、CogACT、OpenVLA-OFT等知名开源模型均已在此平台完成测试并上榜。这种高强度、高频率的真实环境测试,无情地揭示了各模型的物理世界驾驭能力,使得“刷榜”不再是简单的代码优化,而是实打实的物理操作能力验证。
真机考场:RoboChallenge的硬核评测机制
RoboChallenge的评测体系之所以具有公信力,在于其严格的标准化和高度的可复现性。平台构建了一个包含UR5、Franka、ARX5、ALOHA等20台主流机器人的测试集群,确保所有模型在同一硬件约束下进行比较。

核心评测基准是开源的Table30数据集,它包含了30个标准化的桌面操作任务,从基本的抓取放置到复杂精细的控制均有覆盖。要进入总榜,模型必须完成Table30的全部任务,这让任何“偏科”的模型无所遁形。
该平台的评测逻辑也十分严谨:
- 双重评价体系:结合成功率(Success Rate)与过程分,不仅看结果,也评估过程的流畅度与稳定性。
- 多次测量取平均:为消除偶然性,每个模型需对Table30中的每个任务执行10次真机测试,最终的总榜排名是对所有任务的成功率和过程分取平均值。
这种设计确保了分数的公正性和含金量,让得分成为衡量模型泛化能力和鲁棒性的硬指标。
分数背后:当前技术水位的真实写照
RoboChallenge的排行榜如同一面镜子,清晰地映照出当前具身智能技术的真实水位,其中既有亮点,也有巨大的挑战。
成绩与短板:
- 优势领域:在部分任务上,顶尖模型已展现出极高的稳定性。例如在“堆碗(stack_bowls)”任务中,Spirit-v1.5、pi0.5、pi1.0等模型的成功率均达到了100%。
- 普遍弱点:然而,总榜榜首模型在Table30上的平均成功率仅为51%,这说明了任务集的挑战性之高,也暴露了通用具身智能的巨大提升空间。更显著的是,在“做素三明治(make_vegetarian_sandwich)”和“给盆栽浇水(water_potted_plant)”这类需要多步骤、精细操作的任务上,所有上榜模型的成功率均为0%。
这一结果表明,具身智能在单一、结构化任务上已取得突破,但在需要复杂逻辑规划、环境适应和精细操控的综合性任务面前,仍处于“学步”阶段。分数诚实地揭示了从“专用”到“通用”的鸿沟依然巨大。
行业生态:走向开放与标准化的共同体
RoboChallenge的意义远不止于一个排行榜,它正在推动整个行业向更健康、更规范的生态发展。
- 公共基础设施:随着原力灵机与Hugging Face联合智源研究院、智元机器人、Qwen、星海图、清华大学等多家机构成立RoboChallenge组委会,该平台正从一个单纯的技术评测工具,升级为行业级的公共基础设施。
- “开放共同体”模式:平台倡导“开放共同体”理念,旨在建立一套公认的评测标准与流程。这种模式鼓励全球开发者共享数据、验证模型、复现结果,从而加速技术迭代和创新。
- 数据集的开源贡献:Table30数据集的开源(已在Hugging Face被下载超过17K次)为全球开发者提供了宝贵的标准化训练和评估资源,降低了具身智能研究的门槛。
这种从“野蛮生长”到“规范竞赛”的转变,将引导资本和人才更精准地投向真正有价值的技术创新,而非仅仅是光鲜的演示。
未来展望:通用机器人的黎明前夜
尽管当前的“分数”并不完美,但它指明了前进的方向。RoboChallenge及类似的评测平台,将持续倒逼模型开发者解决那些成功率0%的难题,比如长周期任务规划、柔性物体操作和复杂环境交互。2026年,具身智能的竞争已经从“谁的故事更动人”转变为“谁的分数更可靠”。这场基于真实世界表现的“大考”,正在为真正能够融入人类社会、解决实际问题的通用机器人铺平道路。