全球首个人形机器人通用小脑来了!全球最大规模2万小时人类动作数据,实现零样本泛化

破译“通用小脑”:机器人告别“背课文”式编程

传统人形机器人最大的软肋,是动作全靠程序员提前编好程序——就像“背课文”一样,每套程序只对应一个动作。例如“弯腰拿杯子”是一套,“抬手拿笔”是另一套,遇到“边走路边擦桌子”这种没练过的场景就会卡壳。更麻烦的是,机器人的上下半身往往“各管各的”,走路和操作彼此脱节,反应迟缓,遇到斜坡或湿滑地面更容易踉跄。

西湖大学王东林教授团队推出的GAE(通用动作预训练大模型),正是为机器人装上了一颗“通用小脑”。这颗小脑不再依赖预设程序,而是像人类小脑协调运动、维持平衡一样,让机器人在收到信号后瞬间做出最合适的动作。它不仅能实现手脚协同,还能“举一反三”——即使面对从未见过的动作,也能轻松应对。更重要的是,GAE具备“跨本体”能力,不同结构、不同尺寸的机器人均可加载这套大模型,堪称人形机器人的“通用操作系统”。

如影随形:毫秒级复刻、零样本泛化

在西湖大学附近的试验场地,记者见证了泰坦o1的惊人表现:一名工作人员身穿黑色动捕服,舒展双臂、快速转身、蹲下身体,旁边的泰坦o1就像照镜子一样,在毫秒之间复刻了所有动作——手臂角度、身体倾斜、膝盖弯曲,甚至手指的细微颤动都一模一样。更令人惊叹的是,工作人员故意踉跄,泰坦o1瞬间跨出左腿稳住身体,右臂反向摆动找回平衡,与人类调整平衡的动作如出一辙。

全球首个人形机器人通用小脑来了!全球最大规模2万小时人类动作数据,实现零样本泛化

这些动作并非事前编排,而是人类随性而为。任何人穿上动捕服随意动作,机器人都能实时跟上,毫无延迟。这套“零样本泛化”能力,意味着机器人不需要提前训练、不需要懂技术、不用学编程,拿来就能用。正如王东林所说:“穿上动捕服或打开电脑后台,你想让它做什么,它就做什么。”

跨时空“替身”:一人操控百台赛博分身

泰坦o1的另一项强大功能是远程“替身”模式。无论操控者身在何处,只要有网络,穿上动捕服就能指挥千里之外的机器人执行任务。更酷的是,一个人可以同时控制成百上千台机器人,让它们做完全一致的动作。理论上控制规模不设上限。

在安徽卫视2026年春节联欢晚会上,西湖机器人就用这一能力完成了10台机器人的五禽戏群控表演——仅用数天调试,就实现了自定义动作生成与部署,大幅降低应用门槛。王东林表示:“只要具备网络环境,穿上动捕设备,就可以远程操控机器人执行任务。”这套系统几乎不设使用门槛,无需编程经验,用户通过动捕设备或电脑端即可实现“所想即所动”。

“身外化身”背后:2万小时数据与完全自研算法

GAE的问世离不开长期的技术积累与庞大的数据支撑。王东林团队此前已在四足机器人、人形机器人领域深耕多年,积累了丰富的运动控制技术。同时,他们拥有全球领先、国内最大的高质量全身运动数据集——包含人类各种日常动作、复杂动作的详细数据,总时长高达2万小时。正是这些数据,为泰坦o1的“通用小脑”提供了充足的“学习素材”,让它能精准模仿人类动作,实现毫秒级同步。

这套原创算法由西湖大学团队完全自主研发,比国际上其他团队的同类技术领先至少6个月。王东林将GAE与ChatGPT和Sora类比:“ChatGPT让AI能理解并生成语言,Sora能生成视频画面,而GAE让机器人模仿和执行各种人类动作,是机器人领域第一个实现动作泛化的大模型。”

走向危险场景:从实验室到消防救援

“分身体验”只是一个开始。研发泰坦o1的初衷,是让机器人代替人类去做那些危险的工作——比如消防救援、矿区作业、高空维修。这些场景充满未知和风险,传统的预编程机器人无法适应突发变化,而具备“通用小脑”的泰坦o1可以实时模仿人类操作者的动作,并在远程操控下灵活作业,既能提高效率,也能保护人类安全。

王东林表示:“当前大部分机器人动作都要靠程序员提前编好程序。我们希望打破这个瓶颈,让人形机器人真正实现‘人在干啥,它就做啥’。”从实验室的“影子”到未来高危现场的“替身”,泰坦o1正将科幻小说中的“身外化身”一步步变为现实。