向量量化如何影响存储?与RaBitQ两位作者,从与谷歌TurboQuant学术争议聊起
近年来,向量量化技术成为降低AI模型存储需求、提升计算效率的关键手段。特别是在大模型的部署中,KV Cache的量化压缩技术受到广泛关注。RaBitQ作为一种具备理论保障的量化方法,在工业界被20多家公司引入,但其与谷歌TurboQuant之间在技术设计和学术引用上的争议,也引发了关于量化方法是否应被充分认可的讨论。
事件背景:RaBitQ与TurboQuant的相似性争议
2024年,新加坡南洋理工大学(NTU)的龙程副教授与博士生高健扬发表RaBitQ论文,提出了一种基于随机旋转和符号压缩的向量量化方法。其核心在于通过层次化处理实现不同bit位的逐步检索,在压缩率和误差控制上达到了理论最优。
2025年,谷歌发布TurboQuant,宣称其采用的量化方法提升了大模型的KV Cache效率,速度提高8倍,存储空间减少至1/6。然而,RaBitQ的作者高健扬指出,TurboQuant在方法上与RaBitQ高度相似,尤其是在使用随机旋转和符号近似方面,但却在论文中未明确引用RaBitQ的相关工作。
此外,高健扬还批评TurboQuant在理论推导和误差边界上的描述存在错误,可能误导读者对量化方法的正确理解。这一争议引发了学界和工业界对技术归属与学术伦理的关注。
核心技术对比:设计差异与性能表现
-
随机旋转机制:
- RaBitQ:使用随机旋转将向量分布在更均匀的空间中,为后续量化提供数学保障。
- TurboQuant:同样采用随机旋转,但论文未说明其与RaBitQ之间的关系。
-
量化方式:
- RaBitQ:支持1-bit至多bit的分层量化,可逐步增加精度以平衡效率与准确率。
- TurboQuant:侧重于固定bit的压缩,未体现层次化处理的设计思想。

- 理论保障:
- RaBitQ在压缩率和误差界之间给出了严格的数学证明,确保在不同数据分布下仍能维持可控的误差。
- TurboQuant则未提供类似理论分析,其性能提升主要基于实验验证。
这些技术设计的差异,使得RaBitQ在理论层面更具普适性与可靠性,尤其适合动态、多变的KV Cache场景。
RaBitQ的技术演进与行业落地
RaBitQ系列论文发表后,龙程与高健扬团队不断对其进行优化,形成了:
- RaBitQ Library:开源实现库,包含高效的随机旋转算法与多bit量化变体。
- SymphonyQG:与图索引结合的新结构,提升在高维空间中的检索效率。
- 多bit支持:支持从1-bit到4-bit的逐步精度调整,满足不同场景的性能需求。
目前,RaBitQ已被包括Zilliz、阿里云、腾讯云等在内的20多家厂商引入其向量数据库产品中,广泛用于RAG、推荐系统等场景。
此外,RaBitQ还被探索用于大模型的KV Cache量化和权重量化,因其无需校准数据、具备动态处理能力,在大模型推理阶段的内存压缩方面展现出潜力。
RaBitQ与KV Cache压缩的技术适配
在大模型中,KV Cache用于存储解码阶段中每个token的key与value向量。其规模随上下文长度增长而急剧上升,成为推理时内存的主要消耗来源。
- KV Cache压缩的挑战:
- 数据动态性强,不同查询的KV Cache内容差异显著。
- 缺乏稳定校准数据集,传统量化方法难以适用。
- 需要误差可控,以避免影响推理质量。
RaBitQ的优势在于:
- 不依赖校准数据,适合KV Cache的在线场景。
- 支持层次化处理,可先使用低bit估算,逐步提升精度。
- 压缩与恢复过程高效,与现代CPU/GPU架构兼容良好。
因此,RaBitQ在KV Cache压缩中,能够以更小的存储代价实现近似原生精度的推理效果,尤其适合长文本生成和RAG任务。
存储优化的未来:算法瓶颈与硬件需求
高健扬指出,从理论上讲,RaBitQ已经达到了量化压缩的极限。在相同误差条件下,其压缩率无法被进一步超越。这意味着:
- 向量量化技术的“天花板”已现。
- 继续的存储优化必须依赖系统架构改进或硬件资源增加。
- RaBitQ的广泛应用也反映出软件层面的优化空间有限,未来需转向多级存储架构、分布式KV管理等方向。
与此同时,他也强调,RaBitQ作为一个底层算法,可以广泛适配不同系统与场景。随着更多厂商引入其开源库,该技术的生态影响力将持续扩大。但学术界与工业界之间的合作机制、技术落地的资源支持,仍将是推动此类底层技术发展的关键因素。