阿里发布Qwen3.5-Omni，多模态能力超越Gemini-3.1 Pro

3 个月前

AI资讯

50 阅读

多模态阿里 Qwen3.5-Omni

模型核心：从文本到原生多模态的代际跃迁

阿里巴巴推出的Qwen3.5-Omni（在部分资料中被称为Qwen3.5-Plus）标志着其大模型技术的一次根本性飞跃。与前代仅处理文本的模型不同，Qwen3.5-Omni是真正的原生多模态模型，它在预训练阶段就直接融合了视觉和文本的混合token，而非先分别训练再拼接。这种架构革新使其能够无缝处理文本、图像和视频输入。模型总参数量达到3970亿，但仅激活170亿参数，实现了以少胜多的高效架构，其性能甚至超过了万亿参数规模的上一代Qwen3-Max模型。

性能全面对标并细分超越Gemini 3.1 Pro

在硬实力对比上，Qwen3.5-Omni展现了与谷歌Gemini 3.1 Pro全面竞争甚至超越的姿态：

阿里发布Qwen3.5-Omni，多模态能力超越Gemini-3.1 Pro

综合能力持平：在文本理解、静态图像识别、OCR（光学字符识别）以及常规视觉问答等核心维度，两者的准确率几乎一致，处于同一水平线。
细分领域超越：Gemini 3.1 Pro在处理高难度视频理解任务时仍有优势，但Qwen3.5-Omni在多个关键基准测试中实现了反超：
- 知识推理（MMLU-Pro）：得分87.8，超越GPT-5.2。
- 博士级难题（GPQA）：得分88.4，高于Claude 4.5。
- 指令遵循（IF-Bench）：以76.5分刷新所有模型纪录。
- 智能体任务（Agent）：在通用Agent评测BFCL-V4和搜索Agent评测Browsecomp中，均表现优于Gemini 3 Pro和GPT-5.2。

效率革命：低推理成本与高吞吐量

Qwen3.5-Omni不仅在性能上表现出色，更在推理效率和成本控制上实现了巨大突破。通过训练稳定优化和多token预测等技术，其推理效率大幅提升：

显存与效率：部署显存占用降低60%，在常用的32K上下文场景下，推理吞吐量提升8.6倍；在256K超长上下文场景下，最大提升至19倍。
极致性价比：API价格仅为每百万Token 0.8元，是Gemini 3 Pro价格的1/18。这种极具竞争力的定价策略，极大地降低了企业级应用的成本门槛。

实际应用：自主Agent操作能力

基于顶级的视觉能力，Qwen3.5-Omni在Agent应用层面实现了新突破。它可以自主操作手机与电脑，高效执行日常任务：在移动端能支持更多主流APP与指令；在PC端可处理复杂的多步骤操作，例如跨应用数据整理、自动化流程执行等，显著提升用户在真实场景下的操作效率。

行业背景：春节档AI大战激战正酣

Qwen3.5-Omni的发布正值中国AI行业的“春节档”爆发期。除了阿里，各大厂商均动作频频：

字节跳动：推出了视频生成模型Seedance2.0，被赞“超过Sora”，同时发布豆包大模型2.0 Pro，其数学与推理能力达到世界顶尖水平。
其他厂商：智谱开源了GLM-5，MiniMax上线了编程能力大幅提升的M2.5，DeepSeek也在测试支持1M上下文的新模型。

在激烈的市场竞争中，阿里的策略显得更为务实。千问C端事业群总裁吴嘉表示，做大额度的“免单”活动并非为了内卷，而是为了真正让AI融入老百姓的日常生活场景。他坚信，在这一波AI应用浪潮中，中国会走在世界前列，而模型技术将在各家的你追我赶中不断进化。目前，Qwen3.5-Plus模型已接入千问APP及PC端，性能更强的旗舰模型Qwen3.5-Max也即将发布。

阿里发布Qwen3.5-Omni，多模态能力超越Gemini-3.1 Pro

模型核心：从文本到原生多模态的代际跃迁

性能全面对标并细分超越Gemini 3.1 Pro

效率革命：低推理成本与高吞吐量

实际应用：自主Agent操作能力

行业背景：春节档AI大战激战正酣

链接失效反馈