阿里Qwen-Robot 系列发布 让机器人会想会走会动手

80维统一“肢体语言”,让机器人跨硬件灵活操作

Qwen-RobotManip作为VLA(视觉-语言-动作)模型,是机器人的操作核心。它针对传统VLA模型迁移能力差的痛点,创新采用一套80维的统一动作表征,为不同硬件的机器人定义了通用的“肢体语言”。模型不再机械记忆特定动作序列,而是学习基础物理规律与操作逻辑。同时,它放弃绝对坐标计算,直接基于摄像头画面中的相对位置生成指令,面对环境变化响应更快更准。搭载在不同硬件上时,仅需少量交互反馈即可快速适配,如同老司机坐进陌生车辆,试几脚油门就能上路。该模型在超38000小时的开源数据上完成预训练,打破了行业对私有数据的高度依赖。

阿里Qwen-Robot 系列发布 让机器人会想会走会动手

任务自适应导航,机器人认路不再“迷路”

Qwen-RobotNav是专注于移动导航的VLN模型,解决机器人“如何认路、会跑腿”的问题。它基于Qwen-VL构建,将语言指令导航、目标搜索、自动驾驶等五大任务族统一到同一框架,无需人工切换模型。针对传统VLN模型记忆策略死板、容易“记少迷路、记多混乱”的困境,Qwen-RobotNav创新推出任务自适应观察机制,根据任务灵活调整记忆策略。它被设计成一个通用接口,可被上层模型调用,是业内少数原生支持多种智能体框架的VLN模型。例如,对搭载该系统的宇树Go2四足机器人说“帮我找找不记得放在哪的行李箱”,它可以自主巡逻并进行视觉推理,顺畅完成寻物导航。

理解物理规律预演动作,机器人学会“思考”

Qwen-RobotWorld是千问对具身智能世界模型的最新尝试。它基于对物理规律的理解,能够推理并模拟出下一时刻机器人的合理动作和状态,让机器人在现实世界中按图索骥般行动。该模型具有双重价值:一是生成视频数据用于训练模型,大幅缓解训练数据不足的困难;二是在执行动作前帮助机器人推演未来动作轨迹,让操作更精准、更到位。它支持自然语言动作接口,能够跨操作、驾驶和导航场景预测符合物理规律的未来。

只用开源数据训练,包揽真机评测前两名

在横跨30项真实世界任务、覆盖4个机器人平台的三方真机测评RoboChallenge Table30 v1中,Qwen-RobotManip的两个版本(代号“Lira”和“Atlas”)包揽榜单前两名,任务涵盖拧水龙头、插网线、双臂倒薯条等高难度操作。官方评价其“基础任务稳定、高难任务可突破”。这套“通用大脑”未来将搭载于更多形态的机器人,使其在复杂现实中具备高度自主的感知、决策与长程执行能力,让机器人真正实现“会想、会走、会动手”。