北大团队改造DeepSeek注意力，速度快四倍还不丢精度

1 个月前

AI资讯

24 阅读

模型优化北大团队 [稀疏注意力推理效率]

近年来，大语言模型在处理长文本方面的需求日益增长，但传统注意力机制的计算复杂度随文本长度平方级增长，带来了巨大的效率挑战。为了缓解这一问题，DeepSeek开发了DSA（DeepSeek Sparse Attention）机制，通过对关键token进行筛选，减少计算量。

然而，DSA的索引器在处理超长文本时仍然面临瓶颈。其核心机制是逐token打分并筛选关键token，随着文本长度增加，索引器的计算开销急剧上升，成为限制模型推理效率的重要因素。

北大张牧涵团队提出的HISA（Hierarchical Sparse Attention），本质上是对DSA索引器的优化升级。其核心创新在于：

北大团队改造DeepSeek注意力，速度快四倍还不丢精度

这种设计在不改变原有注意力计算逻辑的前提下，实现了对DSA的等价替换，相当于“换了一个更高效的筛子”。

HISA在实际部署中展现出显著的效率优势：

这一成果使得超长文本处理在现实应用中更加高效，兼顾了推理速度与准确性。

HISA的优化机制不仅提升了速度，也具备良好的自适应性：

本研究由北京大学张牧涵团队主导完成。张牧涵回国前曾在Meta AI从事大规模图学习系统的研究，Google Scholar引用量超13000次，是全球前2%顶尖科学家。论文共同一作包括徐宇飞和孟繁续。

随着大模型向更长上下文和更高效率演进，HISA的提出为未来模型推理系统提供了新的优化思路。下一步，团队计划在更多模型架构中验证HISA的通用性，并探索其在多模态任务中的应用潜力。