罗福莉划重点，小米大模型降价99%的秘籍公开

1 个月前

AI资讯

43 阅读

[大模型小米]缓存优化 SWA

缓存命中场景成本直降99%：SWA分层优化让Token容量暴增5倍

罗福莉在昨晚发布的技术博客中，直接亮出降价的工程账目。此次降价力度最大达99%，主要针对缓存命中的输入场景。小米推理框架已完成升级，支持SWA（滑动窗口注意力）分层KV缓存优化。生产推理引擎实测表明，该优化将缓存的Token容量提升了5倍，相当于直接降低了80%的缓存成本。再加上Hybrid模型中多个Full Attention模块之间的缓存读取重叠（Cache Read Overlap），实际成本进一步被压缩。罗福莉直言：“这是真实的工程能力，不是营销手段。”

未命中与输出也降60%-80%：1:7稀疏比带来极低原始推理成本

除了缓存命中场景，输入（未命中缓存）和输出的价格也降低了约60%至80%。这主要得益于MiMo-V2.5-Pro的模型架构——70层网络中，Full Attention与SWA的稀疏比达到极致的1:7。这种设计使得model的prefill计算量大致相当于一个10层的GQA模型。罗福莉指出，MiMo的原始推理成本远低于行业平均水平，在定价上自然留出了2到3倍的利润空间。此次调价，只是小米决定把这些结构性成本优势直接让利给开发者。

罗福莉亮出工程账本：降价后仍能收支平衡，拒绝“盲目降价”

在新的、更低的API价格下，小米MiMo的生产推理引擎已接近满负载运行，但罗福莉确认：“我们基本上仍然可以维持收支平衡。”她强调，此前曾建议大语言模型公司不要“盲目降价”，正是因为很少有模型架构和推理优化能力，能够在API大幅降价后仍避免亏损。此次降价的底气，来自模型本身在推理效率上的压缩和后端推理基础设施的极致优化，而非价格战惯性。小米MiMo-V2.5系列API永久降价后，不再区分上下文窗口长度，当前有效Token Plan用户额度全量重置。

降本背后的良性循环：低价API拉动AI基础设施链发展

罗福莉进一步阐述，价格合理、性能优异的模型API将驱动真实、持续且大规模的推理需求。这种上游需求会拉动整个AI基础设施链的发展——包括芯片、服务器、光模块、PCB、液冷、电力、储能和数据中心，并作为AI硬件系统性重估的战略支点。从长远看，这为训练和推理管线注入了更廉价、更易获取的算力，从而加速全球通用人工智能（AGI）在多个地区和技术路线上的并行演进。小米未来三年AI投入超600亿元，MiMo-V2.5将开源并几乎适配国内所有芯片，进一步验证了这一良性循环的可行。

罗福莉划重点，小米大模型降价99%的秘籍公开

缓存命中场景成本直降99%：SWA分层优化让Token容量暴增5倍

未命中与输出也降60%-80%：1:7稀疏比带来极低原始推理成本

罗福莉亮出工程账本：降价后仍能收支平衡，拒绝“盲目降价”

降本背后的良性循环：低价API拉动AI基础设施链发展

链接失效反馈