三连发!阿里发布首个具身大模型Qwen-Robot系列
旗舰大模型与多模态全家桶齐发,为具身智能筑牢“地基”
9月24日的云栖大会上,阿里云一口气发布了七款大模型产品,覆盖语言、语音、视觉、多模态、代码等领域。其中,旗舰模型Qwen3-Max以超万亿参数、36T训练数据量亮相,编程与Agent工具调用能力大幅提升,性能据称已跻身全球前三。同期推出的Qwen3-Coder、Qwen3-VL、Qwen3-Omni等模型,分别强化了代码生成、3D环境感知和音视频全模态理解能力——尤其是Qwen3-VL升级了3D Grounding能力,可直接为机器人提供空间定位支撑;Qwen3-Omni则实现了“听说写”一体化,未来可部署于车载、智能眼镜等终端。在视觉生成侧,通义万相2.5系列首次实现画音同步,视频时长延长至10秒、支持1080P 24帧输出,进一步降低了具身智能训练所需的高质量仿真数据制作门槛。这些模型构成了阿里具身智能的“智力底座”。

通义千问技术负责人亲自带队,Qwen正式组建具身智能团队
10月9日,通义千问技术负责人林俊旸(Justin Lin)在社交媒体上公开宣布,已建立机器人与具身智能小型团队。他强调:“多模态基础模型正转型为基础智能体,它们应该从虚拟世界走向物理世界。”这标志着阿里AI战略从“理解世界”正式迈入“参与世界”阶段。林俊旸是阿里内部最早研究多模态与具身智能的核心人物,曾主导M6、OFA、CogView等预训练项目,并带队开发Qwen3-Max、QwQ-32B等旗舰模型。团队定位聚焦于通过强化学习、记忆模块和工具使用,赋予模型长时序推理能力,使其能控制机器人、规划运动轨迹、处理传感器输入。此举也被市场解读为阿里继投资逐际动力、星动纪元、宇树科技等多家具身智能公司后,从资本布局转向亲自下场研发的关键一步。
开源三大核心组件,联手英伟达打造Physical AI全链路平台
在具身智能的“硬件”与“平台”层面,阿里同样重拳出击。2025年8月,达摩院在世界机器人大会上开源了具身智能三大核心组件:RynnRCP(机器人与具身智能通信协议)、RynnVLA-001(基于人类示范的视觉-语言-动作模型)以及RynnVLA-002(统一VLA与世界模型的动作世界模型)。这些组件分别解决了机器人的实时通信、模仿学习与自我建模问题,为开发者提供了从数据收集到策略训练的开源工具链。此外,在云栖大会上,阿里云宣布与英伟达在Physical AI领域深度合作:阿里云人工智能平台PAI将集成英伟达Isaac Sim、Isaac Lab、Cosmos等全套Physical AI软件栈,形成覆盖数据预处理、仿真数据生成、模型训练、强化学习、仿真测试的全链路服务。这意味着阿里云不仅提供模型,更构建了具身智能从算法到部署的完整基础设施。