向量量化如何影响存储?与RaBitQ两位作者,从与谷歌TurboQuant学术争议聊起

近年来,向量量化技术成为降低AI模型存储需求、提升计算效率的关键手段。特别是在大模型的部署中,KV Cache的量化压缩技术受到广泛关注。RaBitQ作为一种具备理论保障的量化方法,在工业界被20多家公司引入,但其与谷歌TurboQuant之间在技术设计和学术引用上的争议,也引发了关于量化方法是否应被充分认可的讨论。

事件背景:RaBitQ与TurboQuant的相似性争议

2024年,新加坡南洋理工大学(NTU)的龙程副教授与博士生高健扬发表RaBitQ论文,提出了一种基于随机旋转和符号压缩的向量量化方法。其核心在于通过层次化处理实现不同bit位的逐步检索,在压缩率和误差控制上达到了理论最优。

2025年,谷歌发布TurboQuant,宣称其采用的量化方法提升了大模型的KV Cache效率,速度提高8倍,存储空间减少至1/6。然而,RaBitQ的作者高健扬指出,TurboQuant在方法上与RaBitQ高度相似,尤其是在使用随机旋转和符号近似方面,但却在论文中未明确引用RaBitQ的相关工作。

此外,高健扬还批评TurboQuant在理论推导和误差边界上的描述存在错误,可能误导读者对量化方法的正确理解。这一争议引发了学界和工业界对技术归属与学术伦理的关注。

核心技术对比:设计差异与性能表现

  • 随机旋转机制

    • RaBitQ:使用随机旋转将向量分布在更均匀的空间中,为后续量化提供数学保障。
    • TurboQuant:同样采用随机旋转,但论文未说明其与RaBitQ之间的关系。
  • 量化方式

    • RaBitQ:支持1-bit至多bit的分层量化,可逐步增加精度以平衡效率与准确率。
    • TurboQuant:侧重于固定bit的压缩,未体现层次化处理的设计思想。

向量量化如何影响存储?与RaBitQ两位作者,从与谷歌TurboQuant学术争议聊起

  • 理论保障
    • RaBitQ在压缩率和误差界之间给出了严格的数学证明,确保在不同数据分布下仍能维持可控的误差。
    • TurboQuant则未提供类似理论分析,其性能提升主要基于实验验证。

这些技术设计的差异,使得RaBitQ在理论层面更具普适性与可靠性,尤其适合动态、多变的KV Cache场景。

RaBitQ的技术演进与行业落地

RaBitQ系列论文发表后,龙程与高健扬团队不断对其进行优化,形成了:

  • RaBitQ Library:开源实现库,包含高效的随机旋转算法与多bit量化变体。
  • SymphonyQG:与图索引结合的新结构,提升在高维空间中的检索效率。
  • 多bit支持:支持从1-bit到4-bit的逐步精度调整,满足不同场景的性能需求。

目前,RaBitQ已被包括Zilliz、阿里云、腾讯云等在内的20多家厂商引入其向量数据库产品中,广泛用于RAG、推荐系统等场景。

此外,RaBitQ还被探索用于大模型的KV Cache量化和权重量化,因其无需校准数据、具备动态处理能力,在大模型推理阶段的内存压缩方面展现出潜力。

RaBitQ与KV Cache压缩的技术适配

在大模型中,KV Cache用于存储解码阶段中每个token的key与value向量。其规模随上下文长度增长而急剧上升,成为推理时内存的主要消耗来源。

  • KV Cache压缩的挑战
    • 数据动态性强,不同查询的KV Cache内容差异显著。
    • 缺乏稳定校准数据集,传统量化方法难以适用。
    • 需要误差可控,以避免影响推理质量。

RaBitQ的优势在于:

  • 不依赖校准数据,适合KV Cache的在线场景。
  • 支持层次化处理,可先使用低bit估算,逐步提升精度。
  • 压缩与恢复过程高效,与现代CPU/GPU架构兼容良好。

因此,RaBitQ在KV Cache压缩中,能够以更小的存储代价实现近似原生精度的推理效果,尤其适合长文本生成和RAG任务。

存储优化的未来:算法瓶颈与硬件需求

高健扬指出,从理论上讲,RaBitQ已经达到了量化压缩的极限。在相同误差条件下,其压缩率无法被进一步超越。这意味着:

  • 向量量化技术的“天花板”已现。
  • 继续的存储优化必须依赖系统架构改进或硬件资源增加。
  • RaBitQ的广泛应用也反映出软件层面的优化空间有限,未来需转向多级存储架构、分布式KV管理等方向。

与此同时,他也强调,RaBitQ作为一个底层算法,可以广泛适配不同系统与场景。随着更多厂商引入其开源库,该技术的生态影响力将持续扩大。但学术界与工业界之间的合作机制、技术落地的资源支持,仍将是推动此类底层技术发展的关键因素。