τ0-WM:最大规模预训练的开源具身世界模型来了

机器人遇“语言不通”:真机数据太单一,网络视频没动作

当前机器人训练面临严峻的数据瓶颈。真机采集的数据动作精准,但场景单一,换一个环境就可能失灵;用简易手持夹爪采集的视频场景丰富,但操作方式与真实机器人差异巨大,数据无法直接复用。网络上虽然有人类操作视频,但缺乏机器人所需的关节动作数据。更关键的是,开源机器人数据散落各处,格式标准不一,如同不同方言混杂在一起。如何统一机器人的“动作语言”,成为行业最基础也最迫切的需求。

τ0-WM:最大规模预训练的开源具身世界模型来了

给机器人装“内仿真器”:用相对位姿统一方言,推演未来画面

τ0-WM的核心突破在于构建了一套“既能想象又能执行”的通用框架。首先,它通过“统一动作语言”,将不同来源的动作数据全部转换为相对末端6维位姿——就像把各路方言翻译成普通话,让数据“对齐”。在此基础上,模型训练了一个“动作条件世界模型”:只要输入当前画面和一段动作方案,模型就能生成执行该动作后的未来画面,相当于为机器人内置了一个高速仿真器,能够从海量混合视频中学会模拟物体交互。面对同一任务,τ0-WM会先在“大脑”中推演多种完成方式,快速模拟每种方案,筛选出未来画面最成功、最稳定的动作去执行,如同下棋先推演几步再落子。

400条数据胜过1000条:收纳羽毛球抗干扰,书包拉链也搞定

τ0-WM的实际表现证明了其强大的落地与抗干扰能力。以收纳羽毛球任务为例,未预训练的模型需要超过1000条高质量示范数据才能胜任,而τ0-WM仅需400条数据训练即可完成,且不受光照、背景画面或羽毛球位置变化的影响。在整理工具箱、装书包、安装水管等精细操作任务中,τ0-WM的成功率全面超越其他具身基准模型。这些任务涉及精细夹取和力量控制,例如拉开书包拉链、将水管插入水龙头并拧紧,τ0-WM均能稳定执行。即便操作过程中物体被碰歪或出现意外干扰,机器人也能自行调整,展现出很强的鲁棒性。

从τ0到τ1:开源世界模型向具身基础模型迈进

研发团队强调,τ0-WM不是终点,而是零号版本。当前模型已经在3种不同构型的机器人上完成验证,未来计划从世界模型逐步走向动作模型、闭环学习和更大规模的具身基础模型。随着版本号τ的增加,模型能力将不断提升。目前τ0-WM已开源,呼应了具身智能领域加速开源化的趋势——正如极佳视界的GigaWorld系列、北京人形机器人创新中心的WoW模型等团队也在公开模型权重和数据集。罗剑岚表示:“当下具身智能技术路线尚未收敛,仍需要大胆探索。τ0正是探索的第一步。”