全球权威大模型盲测榜单公布,阿里千问3.6登顶中国最强编程模型
背景:编程大模型竞争加剧
近年来,随着AI编程助手的广泛应用,各大科技公司纷纷推出具备更强编程能力的大语言模型。在这一趋势下,评估模型编程性能的权威榜单如Code Arena日益受到关注。Code Arena采用盲测机制,确保评测结果的客观性和公正性,成为全球开发者和企业衡量模型能力的重要参考。
在此次榜单更新中,阿里巴巴推出的Qwen3.6-Plus以强劲的性能脱颖而出,不仅在国内模型中领先,还在全球范围内位列第二,仅次于国际顶尖模型。这一成绩凸显了中国大模型在编程能力领域的快速进步。
详情:多维度评测中展现领先优势
Qwen3.6-Plus在多项权威评测中展现出卓越的编程能力,具体表现如下:
- SWE-bench系列测试:该模型在模拟真实编程任务的SWE-bench中超越了参数量是其两到三倍的GLM-5、Kimi-K2.5等模型,以更小的参数规模实现了更高的完成率和准确性。
- Terminal-Bench2与NL2Repo:在终端编程任务和长程编程任务中,Qwen3.6-Plus展现了对复杂代码结构的理解与生成能力。
- Claw-Eval与QwenClawBench:作为智能体任务评测基准,这些测试验证了Qwen3.6-Plus在开放环境中调用工具、自主执行任务的能力。

尤为值得关注的是,Qwen3.6-Plus不仅在代码生成上表现出色,还能自主拆解任务、规划执行路径、反复修正错误,直至完成最终目标,标志着“代理式编程”(Agentic Coding)从概念走向实践。
技术亮点:多模态与长上下文能力强化
除了编程能力,Qwen3.6-Plus在技术特性上也实现了多项突破:
- 多模态推理能力:基于原生多模态数据训练,Qwen3.6-Plus能结合图像、文本等信息,完成前端页面生成、代码补全和交互修改等任务,打通“看懂界面—生成代码—调用工具”的完整链路。
- 超长上下文支持:模型支持高达一百万词元的上下文窗口,能够处理长文档、复杂代码库和多轮对话,为开发者提供更强的记忆与推理能力。
- 智能体系统深度适配:Qwen3.6-Plus兼容主流Agent框架,具备更强的任务编排与执行能力,适合构建开放环境下的自动化系统。
这些技术特性使Qwen3.6-Plus在真实开发场景中具备更强的实用性与适应性,成为新一代智能编程工具的重要支撑。
应用与生态:广泛接入平台,普惠开发者
目前,Qwen3.6-Plus已上线阿里云百炼平台,开发者可通过官方API进行调用。其兼容性也得到提升,支持OpenAI与Anthropic规范接口,便于集成到各类第三方编程助手和工具中。
- API调用便捷:开发者无需复杂适配即可快速接入,享受上下文感知、智能推理等能力。
- 性价比突出:输入每百万Tokens最低仅需2元,为开发者和企业提供了高性价比的AI编程支持。
- 用户友好体验:普通用户可通过千问APP、悟空等平台体验该模型,通过自然语言指令即可完成复杂编程任务。
这一广泛的接入策略不仅推动了开发者生态的繁荣,也为非专业用户打开了AI编程的大门,实现“人人可编程”的愿景。
未来展望:千问3.6系列持续演进
Qwen3.6-Plus的发布只是千问3.6系列的起点。阿里方面透露,未来将开源不同尺寸的模型,进一步丰富国产大模型生态。
- 计划推出更强大的Qwen3.6-Max,进一步拓展性能边界。
- 支持多尺寸开源,助力研究与产业落地同步推进。
- 持续优化智能体编程能力,推动AI在软件开发中的深度应用。
随着模型能力的不断提升和生态的持续扩展,千问系列正加速迈向具备高度自主性的超级智能体,成为推动AI原生应用发展的重要力量。