阿里云发布Qwen3.5-Omni,全模态大战开启
3月30日,阿里云通义实验室正式发布旗舰级原生全模态大模型Qwen3.5-Omni。这款模型是Qwen系列的最新迭代,采用了原生端到端架构,标志着阿里在通义千问技术体系下迈出了重要一步。
核心技术亮点
- 原生全模态架构:Qwen3.5-Omni不同于传统的“视觉模型+语言模型+语音模型”拼接方案,而是通过原生架构直接打通文本、图像、音频、视频的底层语义逻辑,显著减少了多模态信息传递中的损耗与延迟。
- 全面超越Gemini-3.1 Pro:在音频理解方面,Qwen3.5-Omni全面超越谷歌Gemini-3.1 Pro,音视频理解能力与之持平,并在30多项国际权威基准测试中取得215项SOTA成绩。
- 多模态能力涌现:模型未经专门训练便自然涌现出Audio-Visual Vibe Coding能力,可以根据音视频指令直接生成可运行的代码,实现了从感知到执行的能力跨越。
- 多语种与多功能支持:支持113种语言和方言的语音识别、36种语种的语音生成,新增语义打断、音色克隆、复杂工具调用等能力,处理能力覆盖超长上下文(256k)及多小时级别的音频和音视频输入。

商业化与生态布局
- API服务同步上线:阿里云推出了配套的实时API服务,基于WebSocket协议实现低延迟流式交互,内置VAD语音活动检测功能,开发者可直接调用。
- 极具竞争力的定价策略:模型API输入价格每千Token仅0.0016元,低于Gemini-3.1 Pro的1/10,同时提供开通后180天内各100万Token的免费额度,显著降低了应用门槛。
- MaaS业务核心驱动:此次发布是阿里云“模型即服务”(MaaS)战略的重要组成部分,未来五年内,阿里云计划以Qwen系列为核心,推动云和AI商业化年收入突破1000亿美元。
- 市场表现强劲:根据沙利文报告,2025年下半年中国企业级大模型日均调用量飙升至37.0万亿tokens,阿里云千问市场占比达32.1%,稳居国内企业级大模型市场首位。
应用场景与行业影响
- 智能穿戴:搭载Qwen3.5-Omni的智能眼镜可实现实时路牌翻译与古迹讲解,提升用户体验。
- 企业办公:模型可自动完成10小时跨国会议的多语种纪要与关键信息标注,提高办公效率。
- 创意产业:该模型支持视频内容的结构化解析与自动化剪辑,重构创意生产流程。
- AI Agent落地:全模态感知能力让AI Agent具备“眼睛”和“耳朵”,可理解物理世界的音视频信息,推动其在工业、消费、医疗等真实场景的应用。
行业竞争与挑战
- 国内外竞争加剧:百度文心一言、腾讯混元、字节豆包等国内厂商,以及OpenAI、谷歌等国际巨头,都在全模态赛道上不断加码,技术迭代压力巨大。
- 算力与成本难题:全模态模型对算力需求高,推理成本远超传统文本模型,如何降低运行成本、实现规模化商用仍是一大挑战。
- 合规与滥用风险:涉及音视频、语音等多种内容类型,面临更严格的内容合规监管。音色克隆等功能存在被滥用的潜在风险,需要完善的合规机制来保障。
总体而言,Qwen3.5-Omni的发布标志着国产全模态大模型在技术突破与商业化落地上的双重进展,为行业带来了“全模态不降智”的全新体验,同时也为国产AI替代国际模型提供了契机。未来,如何在场景落地、成本控制和合规管理之间找到平衡,将是阿里云在该赛道持续领跑的关键。