智谱发布可持续工作 8 小时的旗舰模型 GLM-5.1,同时提价 10%

背景:从价格战到价值竞争的转变

过去一年,国产大模型厂商普遍通过降价90%以上来争夺市场份额,以“性价比”作为核心竞争力。然而,随着技术的不断进步和市场需求的变化,部分厂商开始寻求突破低价竞争的路径,转向以性能为核心的价值定价模式。

智谱AI作为国内领先的通用大模型开发商,近日正式发布新一代开源模型GLM-5.1,并同步提价10%。这一举动标志着国产模型在技术实力和市场定位上的转变,开始在核心能力上与国际头部厂商看齐。

模型性能:代码能力登顶全球第三

GLM-5.1在多个关键性能指标上取得了显著突破,特别是在编程和工程任务方面。根据业内权威代码评测基准:

  • SWE-bench Pro:GLM-5.1在该测试中刷新全球最佳成绩,首次超越Claude Opus 4.6,成为国产模型中首个登顶者。
  • Terminal-Bench 2.0NL2Repo:在这些代码评测中也表现出色,综合平均分位列全球第三、国产第一、开源第一。

SWE-bench Pro是基于真实GitHub仓库的工业级软件开发任务测试,长期由GPT和Claude系列闭源模型垄断头部成绩。GLM-5.1在该测试中脱颖而出,表明国产开源模型在核心通用能力上已具备国际竞争力。

长程任务能力:实现8小时自主工程交付

GLM-5.1最大的亮点之一是其长程任务处理能力。目前市面上大多数模型以分钟级交互为主,而GLM-5.1能够在单次任务中持续、自主地工作长达8小时。这种能力使其成为全球范围内除Claude Opus 4.6外,少数能够胜任工程级任务的模型之一。

智谱发布可持续工作 8 小时的旗舰模型 GLM-5.1,同时提价 10%

在训练方法上,智谱团队做了关键优化,包括:

  • 扩展任务过程的训练窗口
  • 特别强化tool use能力
  • 实现“实验→分析→优化”的闭环处理机制

在实际任务中,GLM-5.1展示了惊人的工程交付能力。例如,在“8小时从零构建Linux桌面”任务中,模型执行了1700多步操作,最终交付了一套功能完善的Linux系统,包括窗口管理器、应用程序、中文字体支持、游戏库等,总产出达4.8MB,相当于4人团队一周的工作量。

定价调整:首次与海外厂商价格对齐

伴随GLM-5.1的发布,智谱同步宣布将GLM系列模型价格上调10%。据模型聚合平台OpenRouter数据显示,调价后GLM-5.1在Coding场景下的缓存命中Token价格已接近Anthropic的Claude Sonnet 4.6,成为国产大模型中首个在核心场景实现价格对标的案例。

这一提价策略并非盲目行为,而是基于GLM-5.1所具备的长程工程交付能力和性能溢价。智谱CEO张鹏表示,长期依赖低价竞争不利于行业健康发展,价格调整是为了反映模型实际产生的商业价值。

行业影响:国产模型进入价值定价新阶段

GLM-5.1的发布标志着国产大模型正从“性价比竞争”走向“能力对标全球”,也预示着AI正在从效率工具进化为具备独立产出能力的新型生产力。

AI行业分析师指出,当模型能够在无人干预的情况下完成复杂任务,其商业价值将大幅提升。这种价值导向的定价策略,将有助于推动整个AI行业进入更加成熟和可持续的发展阶段。

此外,GLM-5.1在技术上实现了“全自治智能体(Autonomous Agent)”的雏形,未来有望实现7×24小时不间断地感知任务、分解目标、执行交付、自我评价与进化,真正实现无需人类介入的工程产出。

案例展示:从对话到交付的范式升级

以“8小时从零构建Linux桌面”任务为例,用户仅提供初始架构草图,GLM-5.1在8小时任务周期内:

  1. 自主拆解开发步骤
  2. 持续执行1700多步操作
  3. 在过程中反复试错、修复问题
  4. 生成回归测试并成功通过
  5. 最终交付一套完整、可用的Linux系统

这一任务成果被业内视为国产模型从“回答问题”向“完成项目”跃迁的关键标志,代表着AI模型从辅助工具到独立产出者的转变。MIT Technology Review将类似“长程任务能力”视为AI演进中的关键指标,而Sequoia Capital甚至据此判断这是通向AGI(通用人工智能)的重要一步。

展望未来:迈向全自治智能体

智谱方面表示,GLM-5.1的终极目标是实现全自治智能体(Autonomous Agent)。其核心能力包括:

  • 7×24小时不间断运行
  • 自主感知和分解任务
  • 自我评价与纠错机制
  • 自我进化与能力迭代

这将使GLM-5.1不仅能完成一次性的工程任务,还能在多轮任务中不断学习和优化,逐步形成类人的工程思维与执行力。

未来,随着更多类似GLM-5.1的高性能模型出现,国产AI大模型有望在全球市场中赢得更广泛的认可,不再只是“替代方案”,而是成为真正的“标杆”。