2026年的具身智能：不再“讲故事”，而是拼“分数”？

1 个月前

AI资讯

54 阅读

具身智能机器人评测 RoboChallenge VLA模型

竞争转向：从“讲故事”到“拼分数”

2026年初，RoboChallenge平台发布的年度报告标志着具身智能行业的重大范式转变。过去，该领域更多依赖于演示视频和技术愿景来吸引关注，而RoboChallenge通过一个基于真实机器人硬件的远程评测系统，将竞争拉回到了客观的性能比拼上。

这个由原力灵机Dexmal与Hugging Face联合推出的平台，将VLA（视觉-语言-动作）大模型直接部署在真实的机器人集群上进行“开卷考试”。自2025年10月上线至2026年2月，累计执行的真机测试（Rollouts）已突破4万次，单日提交评测次数最高达181次。Pi0、RDT-1B、CogACT、OpenVLA-OFT等知名开源模型均已在此平台完成测试并上榜。这种高强度、高频率的真实环境测试，无情地揭示了各模型的物理世界驾驭能力，使得“刷榜”不再是简单的代码优化，而是实打实的物理操作能力验证。

真机考场：RoboChallenge的硬核评测机制

RoboChallenge的评测体系之所以具有公信力，在于其严格的标准化和高度的可复现性。平台构建了一个包含UR5、Franka、ARX5、ALOHA等20台主流机器人的测试集群，确保所有模型在同一硬件约束下进行比较。

2026年的具身智能：不再“讲故事”，而是拼“分数”？

核心评测基准是开源的Table30数据集，它包含了30个标准化的桌面操作任务，从基本的抓取放置到复杂精细的控制均有覆盖。要进入总榜，模型必须完成Table30的全部任务，这让任何“偏科”的模型无所遁形。

该平台的评测逻辑也十分严谨：

双重评价体系：结合成功率（Success Rate）与过程分，不仅看结果，也评估过程的流畅度与稳定性。
多次测量取平均：为消除偶然性，每个模型需对Table30中的每个任务执行10次真机测试，最终的总榜排名是对所有任务的成功率和过程分取平均值。
这种设计确保了分数的公正性和含金量，让得分成为衡量模型泛化能力和鲁棒性的硬指标。

分数背后：当前技术水位的真实写照

RoboChallenge的排行榜如同一面镜子，清晰地映照出当前具身智能技术的真实水位，其中既有亮点，也有巨大的挑战。

成绩与短板：

优势领域：在部分任务上，顶尖模型已展现出极高的稳定性。例如在“堆碗（stack_bowls）”任务中，Spirit-v1.5、pi0.5、pi1.0等模型的成功率均达到了100%。
普遍弱点：然而，总榜榜首模型在Table30上的平均成功率仅为51%，这说明了任务集的挑战性之高，也暴露了通用具身智能的巨大提升空间。更显著的是，在“做素三明治（make_vegetarian_sandwich）”和“给盆栽浇水（water_potted_plant）”这类需要多步骤、精细操作的任务上，所有上榜模型的成功率均为0%。

这一结果表明，具身智能在单一、结构化任务上已取得突破，但在需要复杂逻辑规划、环境适应和精细操控的综合性任务面前，仍处于“学步”阶段。分数诚实地揭示了从“专用”到“通用”的鸿沟依然巨大。

行业生态：走向开放与标准化的共同体

RoboChallenge的意义远不止于一个排行榜，它正在推动整个行业向更健康、更规范的生态发展。

公共基础设施：随着原力灵机与Hugging Face联合智源研究院、智元机器人、Qwen、星海图、清华大学等多家机构成立RoboChallenge组委会，该平台正从一个单纯的技术评测工具，升级为行业级的公共基础设施。
“开放共同体”模式：平台倡导“开放共同体”理念，旨在建立一套公认的评测标准与流程。这种模式鼓励全球开发者共享数据、验证模型、复现结果，从而加速技术迭代和创新。
数据集的开源贡献：Table30数据集的开源（已在Hugging Face被下载超过17K次）为全球开发者提供了宝贵的标准化训练和评估资源，降低了具身智能研究的门槛。

这种从“野蛮生长”到“规范竞赛”的转变，将引导资本和人才更精准地投向真正有价值的技术创新，而非仅仅是光鲜的演示。

未来展望：通用机器人的黎明前夜

尽管当前的“分数”并不完美，但它指明了前进的方向。RoboChallenge及类似的评测平台，将持续倒逼模型开发者解决那些成功率0%的难题，比如长周期任务规划、柔性物体操作和复杂环境交互。2026年，具身智能的竞争已经从“谁的故事更动人”转变为“谁的分数更可靠”。这场基于真实世界表现的“大考”，正在为真正能够融入人类社会、解决实际问题的通用机器人铺平道路。