阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro

模型核心:从文本到原生多模态的代际跃迁

阿里巴巴推出的Qwen3.5-Omni(在部分资料中被称为Qwen3.5-Plus)标志着其大模型技术的一次根本性飞跃。与前代仅处理文本的模型不同,Qwen3.5-Omni是真正的原生多模态模型,它在预训练阶段就直接融合了视觉和文本的混合token,而非先分别训练再拼接。这种架构革新使其能够无缝处理文本、图像和视频输入。模型总参数量达到3970亿,但仅激活170亿参数,实现了以少胜多的高效架构,其性能甚至超过了万亿参数规模的上一代Qwen3-Max模型。

性能全面对标并细分超越Gemini 3.1 Pro

在硬实力对比上,Qwen3.5-Omni展现了与谷歌Gemini 3.1 Pro全面竞争甚至超越的姿态:

阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro

  • 综合能力持平:在文本理解、静态图像识别、OCR(光学字符识别)以及常规视觉问答等核心维度,两者的准确率几乎一致,处于同一水平线。
  • 细分领域超越:Gemini 3.1 Pro在处理高难度视频理解任务时仍有优势,但Qwen3.5-Omni在多个关键基准测试中实现了反超:
    • 知识推理(MMLU-Pro):得分87.8,超越GPT-5.2。
    • 博士级难题(GPQA):得分88.4,高于Claude 4.5。
    • 指令遵循(IF-Bench):以76.5分刷新所有模型纪录。
    • 智能体任务(Agent):在通用Agent评测BFCL-V4和搜索Agent评测Browsecomp中,均表现优于Gemini 3 Pro和GPT-5.2。

效率革命:低推理成本与高吞吐量

Qwen3.5-Omni不仅在性能上表现出色,更在推理效率和成本控制上实现了巨大突破。通过训练稳定优化和多token预测等技术,其推理效率大幅提升:

  • 显存与效率:部署显存占用降低60%,在常用的32K上下文场景下,推理吞吐量提升8.6倍;在256K超长上下文场景下,最大提升至19倍。
  • 极致性价比:API价格仅为每百万Token 0.8元,是Gemini 3 Pro价格的1/18。这种极具竞争力的定价策略,极大地降低了企业级应用的成本门槛。

实际应用:自主Agent操作能力

基于顶级的视觉能力,Qwen3.5-Omni在Agent应用层面实现了新突破。它可以自主操作手机与电脑,高效执行日常任务:在移动端能支持更多主流APP与指令;在PC端可处理复杂的多步骤操作,例如跨应用数据整理、自动化流程执行等,显著提升用户在真实场景下的操作效率。

行业背景:春节档AI大战激战正酣

Qwen3.5-Omni的发布正值中国AI行业的“春节档”爆发期。除了阿里,各大厂商均动作频频:

  • 字节跳动:推出了视频生成模型Seedance2.0,被赞“超过Sora”,同时发布豆包大模型2.0 Pro,其数学与推理能力达到世界顶尖水平。
  • 其他厂商:智谱开源了GLM-5,MiniMax上线了编程能力大幅提升的M2.5,DeepSeek也在测试支持1M上下文的新模型。

在激烈的市场竞争中,阿里的策略显得更为务实。千问C端事业群总裁吴嘉表示,做大额度的“免单”活动并非为了内卷,而是为了真正让AI融入老百姓的日常生活场景。他坚信,在这一波AI应用浪潮中,中国会走在世界前列,而模型技术将在各家的你追我赶中不断进化。目前,Qwen3.5-Plus模型已接入千问APP及PC端,性能更强的旗舰模型Qwen3.5-Max也即将发布。