腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

1 个月前

AI资讯

45 阅读

稀疏注意力破局：降低首字延迟的关键技术

大模型推理时，生成第一个字（首字）的延迟往往最长，因为需要处理所有输入的上下文信息并启动生成过程。传统注意力机制需要对全部token进行全量计算，导致首字耗时居高不下。腾讯混元团队提出的Stem稀疏注意力算法，从混合专家模型（MoE）的稀疏路由思想中借鉴经验——MoE每层通过路由算法决定token由哪些专家处理，既保持性能又降低计算量。Stem算法将这一理念引入注意力层，在保持模型精度的前提下，选择性地只对关键token对进行注意力计算，大幅减少首字阶段的计算负担。据团队实测，该算法使首字延迟降至原来的27.7%（即降低3.6倍），为实时交互场景带来了质的飞跃。

腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

榨干每滴算力：从星脉网络到显存一体化管理

首字延迟的显著降低离不开底层算力平台的极致优化。腾讯自研的Angel机器学习平台是混元大模型的“生产车间”，其秘密武器“星脉网络”支持超10万卡大规模组网，通过自研硬件和拥塞控制算法使网络成本下降70%。针对大模型训练和推理的高显存需求，Angel推出显存主存统一视角存储管理机制——“将显存与主存统一编存，同一台机器上能放下更多参数和中间变量”，实现“每一滴资源都被榨干”的效果。这种显存+主存一体化管理技术，配合模型并行、数据并行、流水并行及算子融合等手段，使Angel平台的推理速度相比微软开源框架提升2.3倍，为Stem稀疏注意力算法的高效运行提供了坚实的基础设施支撑。

万亿级MoE模型实战：推理时延再降20%

Stem稀疏注意力算法并非孤立的技术创新，它深度集成于腾讯混元万亿参数MoE模型的推理加速框架AngelHCF中。混元Turbo采用全新分层异构MoE架构，总参数达万亿级别，性能仅次于GPT-4o。面对万亿级MoE模型参数大、显存需求高、All2all通信效率低等挑战，AngelHCF不仅支持FP8量化压缩，还定制了一系列算子加速FNN模块的推理性能，使推理性能整体提升1倍，部署成本下降50%。在此基础上，Stem稀疏注意力算法进一步针对首字阶段进行专项优化，与已有算子加速、量化技术形成合力，最终实现推理时延整体降低20%、首字延迟降低3.6倍的显著效果。这一组合拳使腾讯混元成为业界首款在万亿参数规模下同时兼顾低成本、低延迟的旗舰大模型。

从数据到部署：混元模型的端到端增效之路

Stem稀疏注意力算法的成功离不开腾讯混元团队从数据到训练再到推理的全链路协同。在预训练阶段，AngelPTM通过引入大BatchSize训练、FP8低精度训练以及MoE算子融合等策略，使训练性能提升108%，成本下降70%。在后训练阶段，混元CriticModel和RewardModel构建了自提升pipeline，强化学习环节全面采用离线数据与在线采样结合策略，整体吞吐提升40%以上。这些优化使混元模型在700多个腾讯业务场景（如腾讯元宝、AI搜索、广告推荐）中快速部署，对外通过腾讯云服务30万行业客户。Stem稀疏注意力算法正是这条“超级流水线”上最新的一环——它让推理阶段的首字延迟不再是用户体验的瓶颈，让“万卡时代”的万亿模型真正做到了“说一句话就能马上得到回应”。

腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

稀疏注意力破局：降低首字延迟的关键技术

榨干每滴算力：从星脉网络到显存一体化管理

万亿级MoE模型实战：推理时延再降20%

从数据到部署：混元模型的端到端增效之路

链接失效反馈