Artificial Analysis放榜：千问3.7问鼎国产模型冠军，全球前五

2 个月前

AI资讯

26 阅读

通义千问国产AI 千问3.7 AI排行榜

千问3.7综合排名国产第一，全球第十三

在最新公布的Arena AI全球大模型文本总榜中，阿里通义千问3.7-Max以综合实力位列第13位，成功超越Gemini 3 Flash和GPT-5.5等国际顶尖模型。这是该榜单前15名中唯一的国产模型，标志着国产AI在通用能力上实现了历史性突破。细分领域方面，Qwen3.7-Max在数学能力上排名全球第7，编程能力排名全球第10，专家级应用与软件及IT领域均位列第9。

视觉与多模态能力跃升，阿里实验室升至全球第五

视觉能力方面，Qwen3.7-Plus预览版在视觉总榜中排名第16。这一表现推动阿里实验室的视觉综合能力跃升至全球第5位。在知识和逻辑推理等主流评测中，Qwen3.7全面领先国内竞品，包括Kimi K2.6、智谱GLM5.1、DeepSeek V4 Pro以及opus4.6-Max，稳坐国产模型头把交椅。

Artificial Analysis放榜：千问3.7问鼎国产模型冠军，全球前五

编程智能体：复杂工程开发新标杆

编程和工具调用能力是本次升级的绝对重心。Qwen3.7的编程智能体支持复杂工程开发，在TerminalBench 2.0测试中得分69.7，超越DeepSeek-V4-ProMax的67.9分；在SWE-Pro测试中获得60.6分，SciCode测试获得53.5分，均处于行业领先水平。这些成绩意味着千问3.7已具备在真实开发场景中高效完成大型工程任务的能力。

长周期稳定推理与办公自动化突破

在持续35小时、超过1000次工具调用的长周期实验中，Qwen3.7始终保持稳定的推理能力，实现了端到端任务闭环，展示了在自动化运维、复杂工作流等场景下的强大潜力。办公自动化方面，其SpreadsheetBench-V1得分高达87.0，处于行业顶尖水平，为AI替代繁琐办公任务提供了坚实技术底座。

从千问3.5到3.7：国产AI全面崛起

回顾此前，阿里千问3.5曾在Hugging Face全球大模型排行榜上登顶，且榜单前十中有八款来自中国团队（阿里巴巴、智谱、MiniMax、月之暗面等）。千问3.7的夺冠并非偶然，而是国产AI在算法、算力与数据上持续积累的必然结果。从开源生态到商业应用，国产模型正以更低成本（如千问3.5 Token成本仅为Gemini 3的5%）实现媲美甚至超越国际对手的性能，全球AI竞争格局正在被重新书写。

Artificial Analysis放榜：千问3.7问鼎国产模型冠军，全球前五

千问3.7综合排名国产第一，全球第十三

视觉与多模态能力跃升，阿里实验室升至全球第五

编程智能体：复杂工程开发新标杆

长周期稳定推理与办公自动化突破

从千问3.5到3.7：国产AI全面崛起

链接失效反馈