首页
登录
当前标签:cache
内存暴降50倍且精度无损,MIT提出注意力匹配,能终结大模型显存危机吗?
MIT提出Attention Matching技术,将大模型KV缓存压缩50倍且几乎不掉精度,有望彻底改变大模型推理的高显存困境。