智谱 GLM-5.1“Day0”上线华为云，在昇腾算力上实现 Layer 级 MOE 绝对均衡

3 个月前

AI资讯

61 阅读

[大模型智谱AI]MoE架构昇腾算力

背景：昇腾算力与MOE架构的挑战

随着大模型参数规模的持续膨胀，如何在异构计算平台上实现高效的分布式训练与推理成为关键技术瓶颈。特别是在MoE（Mixture of Experts）架构中，由于不同专家模型可能被分配不均，容易导致算力资源利用率下降，进而影响整体性能。智谱AI在新一代旗舰模型GLM-5.1的研发过程中，瞄准这一挑战，与华为云展开深度合作，最终实现了“Day0”版本在昇腾算力平台上的高效部署。

华为昇腾AI算力平台具备强大的异构计算能力，但在MoE结构中，专家分配的不均衡问题会限制其性能发挥。智谱GLM-5.1通过Layer级MOE绝对均衡技术，有效解决了这一难题，为模型在大规模计算平台上的高效运行提供了新范式。

实现细节：Layer级MOE绝对均衡

智谱GLM-5.1在昇腾算力上实现了关键的技术突破：

专家均衡调度：通过优化推理框架，确保在每一层MoE结构中，各个专家模块都能均衡地参与计算，避免部分专家过载或闲置。
Attention算子协同优化：结合昇腾平台特有的Attention算子特性，进行模型与硬件的定向协同优化，提升算力利用效率。
HBM访存均衡能力提升：通过优化内存访问模式，提升High Bandwidth Memory（HBM）的使用效率，减少内存瓶颈对推理速度的影响。

智谱 GLM-5.1“Day0”上线华为云，在昇腾算力上实现 Layer 级 MOE 绝对均衡

这些技术的综合应用，使得GLM-5.1在昇腾平台上的推理吞吐量提升了30%，显著增强了其在大规模计算任务中的实用性。

华为云平台支持与模型即服务体验

智谱GLM-5.1上线当日即在华为云完成部署，并成功对接多款云服务产品：

MaaS模型即服务平台：为开发者提供免部署、一键调用GLM-5.1 API的Token服务，支持在线快速体验。
开心版elArts模型训推平台：企业用户可一键完成推理服务部署，支持公共池与专属池两种资源模式，灵活适配不同业务需求。
CodeArts代码智能体：集成GLM-5.1后，在SWE-bench Pro基准测试中刷新全球最佳成绩，胜任真实软件开发任务，且向用户免费开放。
AgentArts智能体开发平台：工具调用精度和任务执行效率大幅提升，支持构建多智能体协同体系，全面升级AI开发体验。

这些平台的整合不仅降低了使用门槛，也为模型的快速落地与规模化部署提供了坚实支撑。

能力突破：8小时自主长程任务与多智能体协同

智谱GLM-5.1在长程任务处理能力上取得显著进展：

8小时自主执行能力：该模型可在单次任务中持续运行8小时，完成工程级复杂任务，无需频繁中断或人工干预。
多智能体协同开发：借助AgentArts平台，开发者能够构建复杂的多智能体系统，实现高效的任务分工与协作。
推理一致性增强：在Flexus平台上部署OpenClaw，调用GLM-5.1可显著提升多轮任务中的一致性，降低失败率。

这一能力的实现，意味着AI模型不仅能执行单一指令，更能胜任需要持续推理、记忆与逻辑构建的复杂任务，推动智能体进入“自主作业”时代。

行业影响与未来展望

智谱GLM-5.1的上线标志着AI模型在算力平台上的协同优化进入新阶段。其在昇腾算力上的Layer级MOE绝对均衡技术，不仅提升了模型的推理效率，也为国产算力平台的生态建设提供了范例。

未来，随着华为云平台对GLM-5.1的进一步支持，更多企业和开发者将能以更低的成本和更高的效率，部署和使用这一旗舰模型。尤其是在软件开发、智能体协同等复杂场景中，GLM-5.1有望推动AI从辅助角色转向核心生产力工具，构建新一代智能任务处理范式。

华为云与智谱AI的合作模式也为大模型“Day0”上线机制提供了可复制的路径，进一步加速模型的商业化落地与平台生态融合。

智谱 GLM-5.1“Day0”上线华为云，在昇腾算力上实现 Layer 级 MOE 绝对均衡

背景：昇腾算力与MOE架构的挑战

实现细节：Layer级MOE绝对均衡

华为云平台支持与模型即服务体验

能力突破：8小时自主长程任务与多智能体协同

行业影响与未来展望

链接失效反馈