罗福莉划重点,小米大模型降价99%的秘籍公开
缓存命中场景成本直降99%:SWA分层优化让Token容量暴增5倍
罗福莉在昨晚发布的技术博客中,直接亮出降价的工程账目。此次降价力度最大达99%,主要针对缓存命中的输入场景。小米推理框架已完成升级,支持SWA(滑动窗口注意力)分层KV缓存优化。生产推理引擎实测表明,该优化将缓存的Token容量提升了5倍,相当于直接降低了80%的缓存成本。再加上Hybrid模型中多个Full Attention模块之间的缓存读取重叠(Cache Read Overlap),实际成本进一步被压缩。罗福莉直言:“这是真实的工程能力,不是营销手段。”
未命中与输出也降60%-80%:1:7稀疏比带来极低原始推理成本
除了缓存命中场景,输入(未命中缓存)和输出的价格也降低了约60%至80%。这主要得益于MiMo-V2.5-Pro的模型架构——70层网络中,Full Attention与SWA的稀疏比达到极致的1:7。这种设计使得model的prefill计算量大致相当于一个10层的GQA模型。罗福莉指出,MiMo的原始推理成本远低于行业平均水平,在定价上自然留出了2到3倍的利润空间。此次调价,只是小米决定把这些结构性成本优势直接让利给开发者。
罗福莉亮出工程账本:降价后仍能收支平衡,拒绝“盲目降价”
在新的、更低的API价格下,小米MiMo的生产推理引擎已接近满负载运行,但罗福莉确认:“我们基本上仍然可以维持收支平衡。”她强调,此前曾建议大语言模型公司不要“盲目降价”,正是因为很少有模型架构和推理优化能力,能够在API大幅降价后仍避免亏损。此次降价的底气,来自模型本身在推理效率上的压缩和后端推理基础设施的极致优化,而非价格战惯性。小米MiMo-V2.5系列API永久降价后,不再区分上下文窗口长度,当前有效Token Plan用户额度全量重置。
降本背后的良性循环:低价API拉动AI基础设施链发展
罗福莉进一步阐述,价格合理、性能优异的模型API将驱动真实、持续且大规模的推理需求。这种上游需求会拉动整个AI基础设施链的发展——包括芯片、服务器、光模块、PCB、液冷、电力、储能和数据中心,并作为AI硬件系统性重估的战略支点。从长远看,这为训练和推理管线注入了更廉价、更易获取的算力,从而加速全球通用人工智能(AGI)在多个地区和技术路线上的并行演进。小米未来三年AI投入超600亿元,MiMo-V2.5将开源并几乎适配国内所有芯片,进一步验证了这一良性循环的可行。