阿里Qwen-Robot 系列发布让机器人会想会走会动手

7 天前

AI资讯

16 阅读

人工智能机器人 VLA 阿里Qwen-Robot

80维统一“肢体语言”，让机器人跨硬件灵活操作

Qwen-RobotManip作为VLA（视觉-语言-动作）模型，是机器人的操作核心。它针对传统VLA模型迁移能力差的痛点，创新采用一套80维的统一动作表征，为不同硬件的机器人定义了通用的“肢体语言”。模型不再机械记忆特定动作序列，而是学习基础物理规律与操作逻辑。同时，它放弃绝对坐标计算，直接基于摄像头画面中的相对位置生成指令，面对环境变化响应更快更准。搭载在不同硬件上时，仅需少量交互反馈即可快速适配，如同老司机坐进陌生车辆，试几脚油门就能上路。该模型在超38000小时的开源数据上完成预训练，打破了行业对私有数据的高度依赖。

阿里Qwen-Robot 系列发布让机器人会想会走会动手

任务自适应导航，机器人认路不再“迷路”

Qwen-RobotNav是专注于移动导航的VLN模型，解决机器人“如何认路、会跑腿”的问题。它基于Qwen-VL构建，将语言指令导航、目标搜索、自动驾驶等五大任务族统一到同一框架，无需人工切换模型。针对传统VLN模型记忆策略死板、容易“记少迷路、记多混乱”的困境，Qwen-RobotNav创新推出任务自适应观察机制，根据任务灵活调整记忆策略。它被设计成一个通用接口，可被上层模型调用，是业内少数原生支持多种智能体框架的VLN模型。例如，对搭载该系统的宇树Go2四足机器人说“帮我找找不记得放在哪的行李箱”，它可以自主巡逻并进行视觉推理，顺畅完成寻物导航。

理解物理规律预演动作，机器人学会“思考”

Qwen-RobotWorld是千问对具身智能世界模型的最新尝试。它基于对物理规律的理解，能够推理并模拟出下一时刻机器人的合理动作和状态，让机器人在现实世界中按图索骥般行动。该模型具有双重价值：一是生成视频数据用于训练模型，大幅缓解训练数据不足的困难；二是在执行动作前帮助机器人推演未来动作轨迹，让操作更精准、更到位。它支持自然语言动作接口，能够跨操作、驾驶和导航场景预测符合物理规律的未来。

只用开源数据训练，包揽真机评测前两名

在横跨30项真实世界任务、覆盖4个机器人平台的三方真机测评RoboChallenge Table30 v1中，Qwen-RobotManip的两个版本（代号“Lira”和“Atlas”）包揽榜单前两名，任务涵盖拧水龙头、插网线、双臂倒薯条等高难度操作。官方评价其“基础任务稳定、高难任务可突破”。这套“通用大脑”未来将搭载于更多形态的机器人，使其在复杂现实中具备高度自主的感知、决策与长程执行能力，让机器人真正实现“会想、会走、会动手”。

阿里Qwen-Robot 系列发布 让机器人会想会走会动手

80维统一“肢体语言”，让机器人跨硬件灵活操作

任务自适应导航，机器人认路不再“迷路”

理解物理规律预演动作，机器人学会“思考”

只用开源数据训练，包揽真机评测前两名

链接失效反馈

阿里Qwen-Robot 系列发布让机器人会想会走会动手