全球权威大模型盲测榜单公布，阿里千问3.6登顶中国最强编程模型

3 个月前

AI资讯

90 阅读

阿里千问 [大模型编程能力榜单]

近年来，随着AI编程助手的广泛应用，各大科技公司纷纷推出具备更强编程能力的大语言模型。在这一趋势下，评估模型编程性能的权威榜单如Code Arena日益受到关注。Code Arena采用盲测机制，确保评测结果的客观性和公正性，成为全球开发者和企业衡量模型能力的重要参考。

在此次榜单更新中，阿里巴巴推出的Qwen3.6-Plus以强劲的性能脱颖而出，不仅在国内模型中领先，还在全球范围内位列第二，仅次于国际顶尖模型。这一成绩凸显了中国大模型在编程能力领域的快速进步。

Qwen3.6-Plus在多项权威评测中展现出卓越的编程能力，具体表现如下：

SWE-bench系列测试：该模型在模拟真实编程任务的SWE-bench中超越了参数量是其两到三倍的GLM-5、Kimi-K2.5等模型，以更小的参数规模实现了更高的完成率和准确性。
Terminal-Bench2与NL2Repo：在终端编程任务和长程编程任务中，Qwen3.6-Plus展现了对复杂代码结构的理解与生成能力。
Claw-Eval与QwenClawBench：作为智能体任务评测基准，这些测试验证了Qwen3.6-Plus在开放环境中调用工具、自主执行任务的能力。

全球权威大模型盲测榜单公布，阿里千问3.6登顶中国最强编程模型

尤为值得关注的是，Qwen3.6-Plus不仅在代码生成上表现出色，还能自主拆解任务、规划执行路径、反复修正错误，直至完成最终目标，标志着“代理式编程”（Agentic Coding）从概念走向实践。

除了编程能力，Qwen3.6-Plus在技术特性上也实现了多项突破：

多模态推理能力：基于原生多模态数据训练，Qwen3.6-Plus能结合图像、文本等信息，完成前端页面生成、代码补全和交互修改等任务，打通“看懂界面—生成代码—调用工具”的完整链路。
超长上下文支持：模型支持高达一百万词元的上下文窗口，能够处理长文档、复杂代码库和多轮对话，为开发者提供更强的记忆与推理能力。
智能体系统深度适配：Qwen3.6-Plus兼容主流Agent框架，具备更强的任务编排与执行能力，适合构建开放环境下的自动化系统。

这些技术特性使Qwen3.6-Plus在真实开发场景中具备更强的实用性与适应性，成为新一代智能编程工具的重要支撑。

目前，Qwen3.6-Plus已上线阿里云百炼平台，开发者可通过官方API进行调用。其兼容性也得到提升，支持OpenAI与Anthropic规范接口，便于集成到各类第三方编程助手和工具中。

这一广泛的接入策略不仅推动了开发者生态的繁荣，也为非专业用户打开了AI编程的大门，实现“人人可编程”的愿景。

Qwen3.6-Plus的发布只是千问3.6系列的起点。阿里方面透露，未来将开源不同尺寸的模型，进一步丰富国产大模型生态。

随着模型能力的不断提升和生态的持续扩展，千问系列正加速迈向具备高度自主性的超级智能体，成为推动AI原生应用发展的重要力量。