蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收，让机器人边推演、边行动

1 个月前

AI资讯

68 阅读

具身智能世界模型 RSS2026 蚂蚁灵波

顶会认证：LingBot-VA闯入RSS 2026，世界模型路线获国际认可

1月30日，蚂蚁灵波科技宣布，其具身世界模型LingBot-VA的论文已被机器人领域顶级学术会议RSS 2026接收。这一结果标志着蚂蚁在“世界模型驱动机器人控制”方向上的探索获得国际学术界的权威肯定。继此前连续开源空间感知模型、具身大模型与世界模型之后，LingBot-VA的入选进一步夯实了蚂蚁灵波在具身智能基础研究中的技术地位。RSS作为机器人学最高水平会议之一，对论文的创新性和实验严谨性要求极高，LingBot-VA凭借其自回归视频-动作建模框架脱颖而出，成为本届大会为数不多聚焦“物理世界因果推理”的亮点工作。

边推演边行动：自回归视频-动作框架破解“先想后做”难题

传统机器人控制多采用“感知-规划-执行”串联流程，难以应对动态变化的物理环境。LingBot-VA首次提出自回归视频-动作世界建模框架，将大规模视频生成模型与机器人控制深度融合。其核心创新在于：模型在生成“下一步世界状态”的视频片段时，同步推演并输出对应的动作序列，实现“边想象、边执行”的闭环。这一机制类似人类在行动前先在脑海预演场景——机器人不再被动响应，而是具备预测性推理能力。团队引入闭环推演机制，每一步生成都纳入真实世界的实时反馈，确保持续生成的画面与动作不偏离物理现实，从而在高动态任务中保持鲁棒性。

蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收，让机器人边推演、边行动

30-50条真机数据搞定高难度任务，成功率平均提升20%

在真机评测中，LingBot-VA展现出对复杂物理交互的强适应能力。面对长时序任务（制作早餐、拾取螺丝）、高精度任务（插入试管、拆快递）以及柔性与关节物体操控（叠衣物、叠裤子）共三大类六项高难度挑战，模型仅需30—50条真机演示数据即可快速适配，任务成功率相较业界强基线Pi0.5平均提升20%。在仿真评测中，LingBot-VA在高难度双臂协同操作基准RoboTwin2.0上首次将成功率提升至超过90%，在长时序终身学习基准LIBERO上达到98.5%平均成功率，均刷新行业纪录。蚂蚁灵波CEO朱兴表示，这一成果得益于团队坚持“互联网数据+真实数据”的训练路线，而非过度依赖仿真数据，让模型真正学习物理世界的因果规律。

跨模态融合与异步推理：让大模型在机器人端侧“跑起来”

为突破大规模视频世界模型在机器人端侧的落地瓶颈，LingBot-VA采用Mixture-of-Transformers（MoT）架构，实现视频处理与动作控制的跨模态融合。该架构让视频编码器和动作解码器共享底层表示，同时保持各自任务专用模块的独立性。此外，团队设计了异步推理管线，将动作预测与电机执行并行化处理；引入基于记忆缓存的持久化机制与噪声历史增强策略，使推理时只需更少生成步骤即可输出稳定、精确的动作指令。这一系列优化让LingBot-VA在保有模型理解深度的同时，具备真机低延迟控制的响应速度，为后续商业落地扫清性能障碍。

开源四连发：蚂蚁灵波押注“具身安卓”生态，加速AGI落地

LingBot-VA是蚂蚁灵波连续四天开源发布的第四款核心模型。此前已开源高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World。与特斯拉Optimus“造脑也造躯干”的封闭模式不同，蚂蚁灵波希望构建机器人领域的“安卓系统”——专注基础模型研发，并通过InclusionAI社区全面开源。团队提供高效的后训练工具链，让硬件厂商能以更低数据量和GPU成本将“大脑”适配到自有本体上。蚂蚁灵波首席科学家沈宇军指出，具身智能技术路线尚未收敛，开源是推动行业进步的最优解。下一步，灵波将持续深化世界模型与具身智能的结合，助力生态伙伴实现从实验室到商业场景的跨越，一个深度融合、开源开放并服务真实产业的AGI生态正在加速成型。

蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收，让机器人边推演、边行动

顶会认证：LingBot-VA闯入RSS 2026，世界模型路线获国际认可

边推演边行动：自回归视频-动作框架破解“先想后做”难题

30-50条真机数据搞定高难度任务，成功率平均提升20%

跨模态融合与异步推理：让大模型在机器人端侧“跑起来”

开源四连发：蚂蚁灵波押注“具身安卓”生态，加速AGI落地

链接失效反馈