你的模型真的会”举一反三”吗？RoboChallenge Table30 V2 正式发布，泛化时代开幕

3 个月前

AI资讯

46 阅读

具身智能泛化能力机器人评测 RoboChallenge

随着VLA与WMA模型爆发式增长，行业核心痛点日益凸显：具身智能模型是否真正具备通用“举一反三”的泛化能力，还是仅仅陷入了单一任务的过拟合？RoboChallenge正式发布的Table30 V2，正是为了解决这一核心追问，它以“面向下一代模型的大规模真机原生泛化评测”为标准，从任务升级、评测升级到系统升级三个维度深度重构，致力于成为全球具身智能研究者的精准“泛化标尺”。

任务升级：直面真实世界的复杂性与灵巧性

为了验证模型是否具备应对复杂且不可预知现实世界的能力，Table30 V2大幅重构了任务集，新增了18个全新的双臂灵巧操作任务，构建了包含30个高难度任务的综合评估体系。

跨越软硬边界：引入了对绳索、布料等软连续体物体的处理任务。这类物体形变无限、状态不固定，极大挑战了模型的空间推理与自适应控制能力。
工具与空间交互：新增任务要求机器人能够准确使用工具，并理解复杂的工具-物体空间关系，这不仅考验精度控制，更是对模型物理常识的深度摸底。
双臂协作能力：设计了大量需要双手高度协调的任务，要求模型在动态受限的环境下实现高精度的同步控制。
跨平台硬件验证：引入新一代移动双臂操纵平台 DOS-W1（三角尖端夹具），并与经典的 Aloha 系统并存。通过双机型并行评测，严谨验证模型在不同硬件配置下的鲁棒性。

你的模型真的会”举一反三”吗？RoboChallenge Table30 V2 正式发布，泛化时代开幕

评测升级：终结“调参”作弊，拥抱全维泛化

针对模型经常在单一任务表现优异，但更换场景即刻“翻车”的现状，Table30 V2 重构了学习与测试协议，彻底终结“为了比赛而调参”的旧模式。

强制多任务范式：全面支持多任务模型，杜绝为每个任务单独训练专用模型的“作弊式”优化。参评者必须提交具备通用理解能力的单一模型。
引入零样本（Zero-shot）测试：包含物体级和环境级两个层面。模型必须在未见过的物体、背景甚至动态干扰（如桌面高度微调）下展示真正的理解力，而非单纯的记忆。
域外（OOD）高阶测试：升级传统的域内评估，通过动态调整测试环境（如将桌面换成沙发），挑战模型的边界。这不再是简单的分数比拼，而是对模型智能本质的压力测试。

系统升级：300%吞吐量，构建科研快循环

对于算法迭代而言，速度就是生命线。为了让科研人员不再因“等待评估结果”而浪费算力，Table30 V2 对底层基础设施进行了彻底的扩容与优化。

吞吐量飞跃：通过增购主流机器人硬件并优化调度算法，系统吞吐能力提升了300%。
任务准备极速化：放宽了像素级的严苛初始状态要求，转向更符合现实的“粗略对齐”，大幅降低了任务准备的空转时间。
引入时间指标：排行榜新增“完成时间（Time to Complete）”作为关键评分维度，倒逼研究者优化策略执行效率，而非盲目堆叠推理时间。

CVPR 2026 Workshop：全球邀请与未来展望

Table30 V2 不仅是一个基准测试的诞生，更是对未来具身智能方向的指引。其预览版将作为 RoboChallenge CVPR 2026 Workshop 竞赛的首秀上线发布。RoboChallenge 诚挚邀请全球科研团队、实验室及个人开发者参与竞赛，在真实机器人集群上验证模型，与全球顶尖算法同台竞技。

竞赛结束后，评测基础设施将持续面向全球研究者开放。泛化是具身智能的下一座山峰，Table30 V2 已吹响攀登的号角。

你的模型真的会”举一反三”吗？RoboChallenge Table30 V2 正式发布，泛化时代开幕

任务升级：直面真实世界的复杂性与灵巧性

评测升级：终结“调参”作弊，拥抱全维泛化

系统升级：300%吞吐量，构建科研快循环

CVPR 2026 Workshop：全球邀请与未来展望

链接失效反馈