Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五

千问3.7综合排名国产第一,全球第十三

在最新公布的Arena AI全球大模型文本总榜中,阿里通义千问3.7-Max以综合实力位列第13位,成功超越Gemini 3 Flash和GPT-5.5等国际顶尖模型。这是该榜单前15名中唯一的国产模型,标志着国产AI在通用能力上实现了历史性突破。细分领域方面,Qwen3.7-Max在数学能力上排名全球第7,编程能力排名全球第10,专家级应用与软件及IT领域均位列第9。

视觉与多模态能力跃升,阿里实验室升至全球第五

视觉能力方面,Qwen3.7-Plus预览版在视觉总榜中排名第16。这一表现推动阿里实验室的视觉综合能力跃升至全球第5位。在知识和逻辑推理等主流评测中,Qwen3.7全面领先国内竞品,包括Kimi K2.6、智谱GLM5.1、DeepSeek V4 Pro以及opus4.6-Max,稳坐国产模型头把交椅。

Artificial Analysis放榜:千问3.7问鼎国产模型冠军,全球前五

编程智能体:复杂工程开发新标杆

编程和工具调用能力是本次升级的绝对重心。Qwen3.7的编程智能体支持复杂工程开发,在TerminalBench 2.0测试中得分69.7,超越DeepSeek-V4-ProMax的67.9分;在SWE-Pro测试中获得60.6分,SciCode测试获得53.5分,均处于行业领先水平。这些成绩意味着千问3.7已具备在真实开发场景中高效完成大型工程任务的能力。

长周期稳定推理与办公自动化突破

在持续35小时、超过1000次工具调用的长周期实验中,Qwen3.7始终保持稳定的推理能力,实现了端到端任务闭环,展示了在自动化运维、复杂工作流等场景下的强大潜力。办公自动化方面,其SpreadsheetBench-V1得分高达87.0,处于行业顶尖水平,为AI替代繁琐办公任务提供了坚实技术底座。

从千问3.5到3.7:国产AI全面崛起

回顾此前,阿里千问3.5曾在Hugging Face全球大模型排行榜上登顶,且榜单前十中有八款来自中国团队(阿里巴巴、智谱、MiniMax、月之暗面等)。千问3.7的夺冠并非偶然,而是国产AI在算法、算力与数据上持续积累的必然结果。从开源生态到商业应用,国产模型正以更低成本(如千问3.5 Token成本仅为Gemini 3的5%)实现媲美甚至超越国际对手的性能,全球AI竞争格局正在被重新书写。