国产第一:阿里 Qwen3.7-Max 模型 AI 编程能力超 Claude Opus 4.6
阿里云发布Qwen3.7-Max,编程能力登顶
阿里云正式推出千问系列最新模型Qwen3.7-Max,在多个AI编程基准测试中取得领先成绩。据官方公布,该模型在HumanEval、MBPP等代码生成与理解任务上得分显著超过此前行业标杆Claude Opus 4.6,尤其在复杂逻辑推理与多步代码规划方面表现突出。

四项关键指标全面碾压
- 代码生成准确率:Qwen3.7-Max在HumanEval中的通过率达到93.7%,比Claude Opus 4.6高出4.2个百分点。
- 多语言支持:覆盖Python、JavaScript、C++等20+主流语言,在罕见语言场景下的补全准确度提升15%。
- 长上下文理解:支持128K tokens,可一次性分析超大型项目源码,提取依赖关系与设计模式。
- 错误修复能力:在SWE-bench真实Bug修复测试中,得分领先Claude Opus 4.6约7%。
从“跟随”到“引领”的技术跨越
Qwen3.7-Max采用混合专家架构(MoE),激活参数量仅需前代模型的1/3,但推理质量不降反升。阿里云工程师表示,模型训练中引入了“编程思维链”专项数据集,使模型能够像资深开发者一样逐步拆解需求、预判边界条件,而非简单复现训练样本。
开发者实测:速度更快、幻觉更少
多位早期测试者在社交媒体表示,Qwen3.7-Max在生成复杂算法时“几乎不需要二次修正”,且响应速度比Claude Opus 4.6快约40%。同时,在涉及系统权限、数据库操作等容易产生幻觉的领域,该模型的错误率降低至Claude Opus 4.6的60%。
国产模型生态再下一城
阿里云同步开放了Qwen3.7-Max的API与云端IDE插件,支持VS Code、JetBrains等主流工具一键集成。这标志着国产大模型在编程这一高商用价值赛道首次实现全球领跑,后续版本将聚焦实时协作编程与自动测试用例生成功能。