首页
登录
当前标签:注意力机制]
牛津、英伟达等提出记忆压缩新范式:训练时让模型学会断舍离
牛津大学、英伟达等机构提出记忆压缩新范式,通过训练时让模型主动学会“断舍离”KV缓存,实现128K长文本加速2.7倍、2M上下文加速35倍,性能不打折。