开源模型首超Opus4.6！智谱GLM-5.1登场，14小时后CUDA专家被冲了

1 个月前

AI资讯

38 阅读

开源模型 [AI大模型智谱GLM-5.1 长程任务]

近年来，AI大模型的发展已经从简单的对话能力，逐步演进为能够完成复杂工程任务的“执行者”。过去衡量模型智能程度的主要标准是跑分，例如在SWE-bench Pro等代码评测基准上的表现。然而，随着模型能力的提升，行业逐渐意识到，仅靠跑分已无法全面反映AI模型的实用价值。

智谱AI推出的GLM-5.1，正是在这一趋势下诞生的里程碑式开源模型。它不仅在多项评测中超越GPT-5.4与Claude Opus 4.6，更在“长程任务（Long Horizon Task）”处理能力上实现了突破。GLM-5.1能在单次任务中持续、自主工作长达8小时，最终交付完整的工程级成果。

GLM-5.1的核心优势体现在以下几个方面：

开源模型首超Opus4.6！智谱GLM-5.1登场，14小时后CUDA专家被冲了

在壁仞科技的配合下，GLM-5.1成功实现高效推理，依托其高算力芯片与BIRENSUPA™软件栈，进一步释放了模型潜力。

GLM-5.1在多个真实工程场景中的表现令人惊叹：

这些实测不仅展示了GLM-5.1在软件开发领域的潜力，也揭示了AI正在逐步承担更复杂的任务闭环。

GLM-5.1在权威评测中表现突出：

SWE-Bench Pro：得分58.4%，超越Claude Opus 4.6（57.3%）与GPT-5.4（57.7%），刷新全球最佳成绩。
Terminal-Bench 2.0与NL2Repo：三项综合平均分，GLM-5.1位列全球模型第三、国产模型第一、开源模型第一。
MIT METR测试：在任务完成时间线（Task-Completion Time Horizon）评测中，GLM-5.1是唯一实现8小时持续工作的开源模型。

HuggingFace CEO Clement Delangue也公开表示：“SWE-Bench Pro上表现最好的模型现在在HuggingFace上开源了！欢迎GLM-5.1。”