τ0-WM：最大规模预训练的开源具身世界模型来了

1 个月前

AI资讯

45 阅读

机器人开源]预训练 [具身世界模型

机器人遇“语言不通”：真机数据太单一，网络视频没动作

当前机器人训练面临严峻的数据瓶颈。真机采集的数据动作精准，但场景单一，换一个环境就可能失灵；用简易手持夹爪采集的视频场景丰富，但操作方式与真实机器人差异巨大，数据无法直接复用。网络上虽然有人类操作视频，但缺乏机器人所需的关节动作数据。更关键的是，开源机器人数据散落各处，格式标准不一，如同不同方言混杂在一起。如何统一机器人的“动作语言”，成为行业最基础也最迫切的需求。

τ0-WM：最大规模预训练的开源具身世界模型来了

给机器人装“内仿真器”：用相对位姿统一方言，推演未来画面

τ0-WM的核心突破在于构建了一套“既能想象又能执行”的通用框架。首先，它通过“统一动作语言”，将不同来源的动作数据全部转换为相对末端6维位姿——就像把各路方言翻译成普通话，让数据“对齐”。在此基础上，模型训练了一个“动作条件世界模型”：只要输入当前画面和一段动作方案，模型就能生成执行该动作后的未来画面，相当于为机器人内置了一个高速仿真器，能够从海量混合视频中学会模拟物体交互。面对同一任务，τ0-WM会先在“大脑”中推演多种完成方式，快速模拟每种方案，筛选出未来画面最成功、最稳定的动作去执行，如同下棋先推演几步再落子。

400条数据胜过1000条：收纳羽毛球抗干扰，书包拉链也搞定

τ0-WM的实际表现证明了其强大的落地与抗干扰能力。以收纳羽毛球任务为例，未预训练的模型需要超过1000条高质量示范数据才能胜任，而τ0-WM仅需400条数据训练即可完成，且不受光照、背景画面或羽毛球位置变化的影响。在整理工具箱、装书包、安装水管等精细操作任务中，τ0-WM的成功率全面超越其他具身基准模型。这些任务涉及精细夹取和力量控制，例如拉开书包拉链、将水管插入水龙头并拧紧，τ0-WM均能稳定执行。即便操作过程中物体被碰歪或出现意外干扰，机器人也能自行调整，展现出很强的鲁棒性。

从τ0到τ1：开源世界模型向具身基础模型迈进

研发团队强调，τ0-WM不是终点，而是零号版本。当前模型已经在3种不同构型的机器人上完成验证，未来计划从世界模型逐步走向动作模型、闭环学习和更大规模的具身基础模型。随着版本号τ的增加，模型能力将不断提升。目前τ0-WM已开源，呼应了具身智能领域加速开源化的趋势——正如极佳视界的GigaWorld系列、北京人形机器人创新中心的WoW模型等团队也在公开模型权重和数据集。罗剑岚表示：“当下具身智能技术路线尚未收敛，仍需要大胆探索。τ0正是探索的第一步。”

τ0-WM：最大规模预训练的开源具身世界模型来了

机器人遇“语言不通”：真机数据太单一，网络视频没动作

给机器人装“内仿真器”：用相对位姿统一方言，推演未来画面

400条数据胜过1000条：收纳羽毛球抗干扰，书包拉链也搞定

从τ0到τ1：开源世界模型向具身基础模型迈进

链接失效反馈