首页

登录

国产第一：阿里 Qwen3.7-Max 模型 AI 编程能力超 Claude Opus 4.6

1 个月前

AI资讯

49 阅读

代码生成 [AI编程模型对比阿里云]

阿里云发布Qwen3.7-Max，编程能力登顶

阿里云正式推出千问系列最新模型Qwen3.7-Max，在多个AI编程基准测试中取得领先成绩。据官方公布，该模型在HumanEval、MBPP等代码生成与理解任务上得分显著超过此前行业标杆Claude Opus 4.6，尤其在复杂逻辑推理与多步代码规划方面表现突出。

国产第一：阿里 Qwen3.7-Max 模型 AI 编程能力超 Claude Opus 4.6

四项关键指标全面碾压

代码生成准确率：Qwen3.7-Max在HumanEval中的通过率达到93.7%，比Claude Opus 4.6高出4.2个百分点。
多语言支持：覆盖Python、JavaScript、C++等20+主流语言，在罕见语言场景下的补全准确度提升15%。
长上下文理解：支持128K tokens，可一次性分析超大型项目源码，提取依赖关系与设计模式。
错误修复能力：在SWE-bench真实Bug修复测试中，得分领先Claude Opus 4.6约7%。

从“跟随”到“引领”的技术跨越

Qwen3.7-Max采用混合专家架构（MoE），激活参数量仅需前代模型的1/3，但推理质量不降反升。阿里云工程师表示，模型训练中引入了“编程思维链”专项数据集，使模型能够像资深开发者一样逐步拆解需求、预判边界条件，而非简单复现训练样本。

开发者实测：速度更快、幻觉更少

多位早期测试者在社交媒体表示，Qwen3.7-Max在生成复杂算法时“几乎不需要二次修正”，且响应速度比Claude Opus 4.6快约40%。同时，在涉及系统权限、数据库操作等容易产生幻觉的领域，该模型的错误率降低至Claude Opus 4.6的60%。

国产模型生态再下一城

阿里云同步开放了Qwen3.7-Max的API与云端IDE插件，支持VS Code、JetBrains等主流工具一键集成。这标志着国产大模型在编程这一高商用价值赛道首次实现全球领跑，后续版本将聚焦实时协作编程与自动测试用例生成功能。