蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收,让机器人边推演、边行动
顶会认证:LingBot-VA闯入RSS 2026,世界模型路线获国际认可
1月30日,蚂蚁灵波科技宣布,其具身世界模型LingBot-VA的论文已被机器人领域顶级学术会议RSS 2026接收。这一结果标志着蚂蚁在“世界模型驱动机器人控制”方向上的探索获得国际学术界的权威肯定。继此前连续开源空间感知模型、具身大模型与世界模型之后,LingBot-VA的入选进一步夯实了蚂蚁灵波在具身智能基础研究中的技术地位。RSS作为机器人学最高水平会议之一,对论文的创新性和实验严谨性要求极高,LingBot-VA凭借其自回归视频-动作建模框架脱颖而出,成为本届大会为数不多聚焦“物理世界因果推理”的亮点工作。
边推演边行动:自回归视频-动作框架破解“先想后做”难题
传统机器人控制多采用“感知-规划-执行”串联流程,难以应对动态变化的物理环境。LingBot-VA首次提出自回归视频-动作世界建模框架,将大规模视频生成模型与机器人控制深度融合。其核心创新在于:模型在生成“下一步世界状态”的视频片段时,同步推演并输出对应的动作序列,实现“边想象、边执行”的闭环。这一机制类似人类在行动前先在脑海预演场景——机器人不再被动响应,而是具备预测性推理能力。团队引入闭环推演机制,每一步生成都纳入真实世界的实时反馈,确保持续生成的画面与动作不偏离物理现实,从而在高动态任务中保持鲁棒性。

30-50条真机数据搞定高难度任务,成功率平均提升20%
在真机评测中,LingBot-VA展现出对复杂物理交互的强适应能力。面对长时序任务(制作早餐、拾取螺丝)、高精度任务(插入试管、拆快递)以及柔性与关节物体操控(叠衣物、叠裤子)共三大类六项高难度挑战,模型仅需30—50条真机演示数据即可快速适配,任务成功率相较业界强基线Pi0.5平均提升20%。在仿真评测中,LingBot-VA在高难度双臂协同操作基准RoboTwin2.0上首次将成功率提升至超过90%,在长时序终身学习基准LIBERO上达到98.5%平均成功率,均刷新行业纪录。蚂蚁灵波CEO朱兴表示,这一成果得益于团队坚持“互联网数据+真实数据”的训练路线,而非过度依赖仿真数据,让模型真正学习物理世界的因果规律。
跨模态融合与异步推理:让大模型在机器人端侧“跑起来”
为突破大规模视频世界模型在机器人端侧的落地瓶颈,LingBot-VA采用Mixture-of-Transformers(MoT)架构,实现视频处理与动作控制的跨模态融合。该架构让视频编码器和动作解码器共享底层表示,同时保持各自任务专用模块的独立性。此外,团队设计了异步推理管线,将动作预测与电机执行并行化处理;引入基于记忆缓存的持久化机制与噪声历史增强策略,使推理时只需更少生成步骤即可输出稳定、精确的动作指令。这一系列优化让LingBot-VA在保有模型理解深度的同时,具备真机低延迟控制的响应速度,为后续商业落地扫清性能障碍。
开源四连发:蚂蚁灵波押注“具身安卓”生态,加速AGI落地
LingBot-VA是蚂蚁灵波连续四天开源发布的第四款核心模型。此前已开源高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World。与特斯拉Optimus“造脑也造躯干”的封闭模式不同,蚂蚁灵波希望构建机器人领域的“安卓系统”——专注基础模型研发,并通过InclusionAI社区全面开源。团队提供高效的后训练工具链,让硬件厂商能以更低数据量和GPU成本将“大脑”适配到自有本体上。蚂蚁灵波首席科学家沈宇军指出,具身智能技术路线尚未收敛,开源是推动行业进步的最优解。下一步,灵波将持续深化世界模型与具身智能的结合,助力生态伙伴实现从实验室到商业场景的跨越,一个深度融合、开源开放并服务真实产业的AGI生态正在加速成型。