一手实测智谱最强模型，AI编程“御三家”要成型了？

6 天前

AI资讯

38 阅读

AI编程 [智谱大模型]GLM-5.2

GLM-5.2空降全球编程榜第二，开发者直呼“Opus平替”

6月17日，智谱正式发布并开源旗舰模型GLM-5.2。在盲测平台Arena.ai的Code Arena编程评估中，GLM-5.2拿下1595分，排名总榜第二、全球可用模型第一；在FrontierSWE基准测试中，它仅次于Opus 4.8和不可用的Fable 5；而在评测模型审美的Design Arena上，GLM-5.2直接拿下全球第一。海外开发者反馈称其与Fable 5差距很小，Fable 5下架后GLM-5.2迅速补位。知乎大V调侃“如果Opus是GLM冒充的，用户可能分辨不出”，更多开发者认定这是“国内第一款在工作流上达到Opus级的模型”。一个由Anthropic、OpenAI、智谱构成的“Coding御三家”格局正在成形。

实测4小时：从零打造《文明》复刻版，GLM-5.2修了16个bug

首个实测任务要求GLM-5.2从零开发一款《文明》风格策略游戏，并迭代至M4版本。模型自动编写PRD、选择Godot引擎与2.5D方案。M0阶段创建十几个文件，但存在交互bug；GLM-5.2在一两轮对话内逐一修复。M2版本自主加入战斗系统、科技树、城市经济和资源限制四大子系统，持续工作30多分钟，严格遵循“完成一个功能、跑一次测试”的规则，此时上下文已超30万tokens。M3版本实现敌方战术AI并扩大地图，模型主动优化静态/动态渲染分层与小地图缓存。M4阶段，用户指出UI“没有游戏味儿”，GLM-5.2自行找素材更新图标、重新设计交互卡片。最终遭遇地图100x100拖拽跳动的隐藏bug，GLM-5.2跨越大几十万上下文定位到M0版本遗留的UI控件问题。整个项目共使用87万上下文窗口，修复16个bug，且模型能准确回忆每个bug的原因与解法。

一手实测智谱最强模型，AI编程“御三家”要成型了？

百万上下文挑战：30小时播客一口气读完，GLM-5.1败下阵来

跳过编程，GLM-5.2的百万上下文能力在长文本整合上同样惊人。一次性上传13份AI领域播客实录，总时长超30小时、约25万词。让模型定位“Scaling Law是否遇到瓶颈”的讨论轨迹，GLM-5.2成功识别黄仁勋否定预训练撞墙论、Sam Altman强调算力重要性等观点，并总结出Scaling Law从单一预训练扩展到四条曲线的演进脉络，引用Hassabis、陶哲轩的论述。随后，模型仅用1分多钟将散落讨论按9大主题自动归类，生成共识摘要与待解争议，抽检发现基本无幻觉。相比之下，GLM-5.1（20万上下文）处理同一任务只能逐个文件提炼汇总，无法跨文件关联观点变化。不过，在轻量级任务（如单文件代码补全、Web UI开发）上，GLM-5.2与GLM-5.1输出质量基本持平，百万上下文的优势集中在超长任务中。

百万上下文背后的黑科技：IndexShare、KVShare、LayerSplit、HiSparse

智谱为GLM-5.2实现了真正可用的百万上下文，核心突破两点：模型效果从0到100万不衰减、推理成本可控。技术组合上，推理基础设施与模型架构协同优化。在MTP层引入IndexShare与KVShare：多步MTP只在第一步计算索引器，后续步骤直接复用，避免重复注意力计算。基础设施层的LayerSplit针对Coding Agent长上下文高缓存命中率的特点，每张GPU仅持有部分层的KV Cache，计算时广播并设计KV Cache与Indexer计算的重叠机制，额外引入1/8体量的广播，在32k-1024k长度内实现3%-192%的吞吐量提升。HiSparse分层内存系统将非活跃KV缓存卸载至主机内存，GPU HBM保留热点缓存区。GLM-5.2已在Day 0完成华为昇腾、平头哥、摩尔线程、寒武纪等国产算力平台的推理适配，并新增High/Max两档思考强度设定。

ZCode 3.0深度适配：智谱自研Agent内核全面切换

智谱同步发布AI编程工具ZCode 3.0，深度适配GLM-5.2。该版本全面切换自研ZCode Agent内核，针对满血GLM深度优化长程推理、工具调用和大型工程执行链路，任务完成效果显著优于第三方Agent，后续版本将不再内置或维护其他Agent适配。GLM-5.2面向GLM Coding Plan全量用户开放。ZCode 3.0还引入分组式任务工作区、Zread智能项目知识库、可视化Git分支图谱、可定制化聊天交互、状态监控看板、多类型附件适配及全新视觉体系。结合智谱Agent产品AutoClaw，GLM-5.2的百万上下文与长程任务能力可服务设计、法务等白领场景，例如一次性写出数十个原型页面并保持品牌规范。当模型既能工作得久、又能记得住，它才真正从“对话式AI”走向“执行式AI”。

一手实测智谱最强模型，AI编程“御三家”要成型了？

GLM-5.2空降全球编程榜第二，开发者直呼“Opus平替”

实测4小时：从零打造《文明》复刻版，GLM-5.2修了16个bug

百万上下文挑战：30小时播客一口气读完，GLM-5.1败下阵来

百万上下文背后的黑科技：IndexShare、KVShare、LayerSplit、HiSparse

ZCode 3.0深度适配：智谱自研Agent内核全面切换

链接失效反馈