小米紧随 DeepSeek 疯狂降价,罗福莉却劝同行别盲目跟风?
小米MiMo跟进DeepSeek,API最高降幅99%引热议
5月22日,DeepSeek宣布V4 Pro模型永久降价。仅五天后,5月27日凌晨,小米MiMo-V2.5系列API即宣布永久降价,最高降幅达到99%,并同步优化Token Plan计费体系,定价不变但可用量提升至5至8倍。这一降幅直接将价格对标DeepSeek,引发行业广泛关注。在Artificial Analysis榜单上,MiMo-V2.5-Pro的综合智能指数和Agent指数均位居全球开源模型前列。
罗福莉解密:降价的底气来自Hybrid SWA架构与全链路优化
时隔21小时后,小米MiMo大模型负责人罗福莉在X平台发表长文,详细解释了降价背后的技术原因。她指出,此次降价力度最大的输入(缓存命中)场景,核心原因是推理框架已完成升级,支持SWA分层KV缓存优化。实测显示,缓存令牌容量翻了5倍,缓存成本直接砍掉80%。此外,模型多模块缓存读取的叠加优化进一步压低了成本。

其根本技术架构是Hybrid SWA+MoE+多模态组合。以MiMo-V2.5-Pro为例,70层中60层采用滑动窗口注意力(SWA,仅看最近128个token),仅10层保留全局注意力(Full Attention)。这使得KVCache体积压缩到Full Attention的1/7,计算量同样仅为1/7。经过系统性的KV Cache管理、分级缓存、前缀缓存树优化以及调度策略重构,实际推理成本下降了一个数量级,单位成本下降超过95%。
罗福莉劝同行:别盲目打价格战,多数模型撑不住
罗福莉特别强调:“此前我们也提醒过同行,别一味跟风打价格战。多数模型和推理方案根本撑不住低价,很容易陷入亏损。”她透露,小米MiMo的原始推理成本远低于行业平均水平,因此在定价时预留了2到3倍的利润空间。如今即使API价格大幅下调,在引擎接近满负荷运转的情况下,依旧能基本实现收支平衡。她希望未来业内能出现更多节省算力和优化缓存的架构,配合成熟的推理基建降本,推动整个行业进入良性发展。
技术细节:从KV Cache分池到MTP加速,全链路复盘
为更直观展示降本逻辑,小米在5月30日发布了详细技术博客,首次公开完整技术方案。关键创新包括:
- KV Cache分池优化:将Full Attention层与SWA层的KV Cache拆分为两个独立池子,前者按全长分配,后者只按128个token窗口分配,使同一台GPU的并发用户数翻了5倍。
- SWA-aware前缀缓存树:引入“窗口安全长度”匹配规则,服务器端缓存命中率平均达到93%~95%。
- GCache通用缓存系统:利用GPU机器混布,额外存储成本为零,95%请求几乎不用计算。
- 调度优化:LLM-Router调度器实现KV Cache亲和调度,L2缓存命中率提升25%,单机输入吞吐提升30%。
- Decode优化:显存优化使KVCache有效容量提升近5倍;原生3层MTP(多token预测)在agentic场景下,前128个token加速2.3倍,128~256个token加速1.5倍。
- 多模态优化:基于SGLang的EPD方案,Encoder吞吐提升至2倍,1小时视频端到端延时从156秒降至23秒。
小米押注AI:600亿投入与“人车家”全生态闭环
在降价和技术亮剑背后,是小米对AI的全力押注。财报显示,一季度研发支出达90亿元,同比增长33.4%。小米承诺今年AI投入至少160亿元,未来三年投入将超600亿元,全力推进“人车家”全生态AI闭环。总裁卢伟冰在财报会议上表示,目前AI商业化刚开始,重点在于强化基础模型能力,不会急于马上追求AI变现。然而,这一豪赌也引发质疑:手机基本盘不稳、汽车亏损扩大,600亿砸下去能否跑出第二增长曲线?但无论如何,罗福莉团队用技术证明:降价不是自杀式倾销,而是结构性成本优势的变现。