阿里千问发布全模态大模型 Qwen3.5-Omni，无缝理解文本、图片、音频及音视频输入

1 个月前

AI资讯

42 阅读

核心架构与发布概述

阿里巴巴Qwen团队于2025年12月9日发布了新一代原生全模态大模型——Qwen3-Omni-Flash-2025-12-01（通常简称为Qwen3.5-Omni）。作为Qwen3-Omni的全面升级版，该模型采用了先进的原生端到端架构，旨在实现“声形意合，令出智随”的极致交互体验。不同于以往的拼接式多模态方案，Qwen3.5-Omni能够无缝处理文本、图像、音频和视频等多种输入形式，并能通过实时流式响应技术，同步生成高质量的文本与自然语音，极大地提升了交互的流畅度与响应速度。

阿里千问发布全模态大模型 Qwen3.5-Omni，无缝理解文本、图片、音频及音视频输入

全面进化的多模态交互能力

此次升级在多模态交互的细腻度和稳定性上取得了显著突破：

口语化理解增强：针对口语场景中常见的“降智”问题，新模型大幅增强了对音视频指令的理解与执行能力，显著提升了多轮对话的稳定性与连贯性。
语音合成拟人化：彻底解决了以往语音生成中语速拖沓、机械呆板的现象。模型能够根据文本内容自适应调节语速、停顿与韵律，其语音表现的自然度与拟人化程度已逼近真人水平。
复杂指令遵循：在逻辑推理（ZebraLogic +5.6分）、代码生成（LiveCodeBench-v6 +9.3分）及多学科视觉问答（MMMU +4.7分）等客观性能指标上展现出强大的统治力，表明其不仅能准确“看懂”图像与视频，更具备深度的逻辑分析能力。

开放的System Prompt与自定义人设

Qwen3.5-Omni引入了飞跃性的系统提示（System Prompt）控制能力，Qwen团队全面开放了相关自定义权限。用户不再局限于通用回复，可以根据需求精细调控模型的行为模式，设定诸如“甜妹”、“御姐”或“日系”等特定人设风格，也能调整口语化表达偏好及回复长度。模型能精准执行这些设定，为用户提供高度定制化、具象化的AI陪伴与服务体验。

强大的多语言支持与普惠开放

为了满足全球化与多样化的应用需求，该模型在多语言能力上表现更加可靠。它支持119种文本语言交互、19种语音识别语言以及10种语音合成语言，确保在跨语言场景下依然能够保持准确一致的响应。目前，Qwen3-Omni-Flash已在阿里云百炼平台开放体验，企业级调用成本低至0.0018元/千Token起，致力于让高性能的全模态AI能力触手可及。