小米紧随 DeepSeek 疯狂降价，罗福莉却劝同行别盲目跟风？

1 个月前

AI资讯

33 阅读

大模型 DeepSeek 小米降价

小米MiMo跟进DeepSeek，API最高降幅99%引热议

5月22日，DeepSeek宣布V4 Pro模型永久降价。仅五天后，5月27日凌晨，小米MiMo-V2.5系列API即宣布永久降价，最高降幅达到99%，并同步优化Token Plan计费体系，定价不变但可用量提升至5至8倍。这一降幅直接将价格对标DeepSeek，引发行业广泛关注。在Artificial Analysis榜单上，MiMo-V2.5-Pro的综合智能指数和Agent指数均位居全球开源模型前列。

罗福莉解密：降价的底气来自Hybrid SWA架构与全链路优化

时隔21小时后，小米MiMo大模型负责人罗福莉在X平台发表长文，详细解释了降价背后的技术原因。她指出，此次降价力度最大的输入（缓存命中）场景，核心原因是推理框架已完成升级，支持SWA分层KV缓存优化。实测显示，缓存令牌容量翻了5倍，缓存成本直接砍掉80%。此外，模型多模块缓存读取的叠加优化进一步压低了成本。

小米紧随 DeepSeek 疯狂降价，罗福莉却劝同行别盲目跟风？

其根本技术架构是Hybrid SWA+MoE+多模态组合。以MiMo-V2.5-Pro为例，70层中60层采用滑动窗口注意力（SWA，仅看最近128个token），仅10层保留全局注意力（Full Attention）。这使得KVCache体积压缩到Full Attention的1/7，计算量同样仅为1/7。经过系统性的KV Cache管理、分级缓存、前缀缓存树优化以及调度策略重构，实际推理成本下降了一个数量级，单位成本下降超过95%。

罗福莉劝同行：别盲目打价格战，多数模型撑不住

罗福莉特别强调：“此前我们也提醒过同行，别一味跟风打价格战。多数模型和推理方案根本撑不住低价，很容易陷入亏损。”她透露，小米MiMo的原始推理成本远低于行业平均水平，因此在定价时预留了2到3倍的利润空间。如今即使API价格大幅下调，在引擎接近满负荷运转的情况下，依旧能基本实现收支平衡。她希望未来业内能出现更多节省算力和优化缓存的架构，配合成熟的推理基建降本，推动整个行业进入良性发展。

技术细节：从KV Cache分池到MTP加速，全链路复盘

为更直观展示降本逻辑，小米在5月30日发布了详细技术博客，首次公开完整技术方案。关键创新包括：

KV Cache分池优化：将Full Attention层与SWA层的KV Cache拆分为两个独立池子，前者按全长分配，后者只按128个token窗口分配，使同一台GPU的并发用户数翻了5倍。
SWA-aware前缀缓存树：引入“窗口安全长度”匹配规则，服务器端缓存命中率平均达到93%～95%。
GCache通用缓存系统：利用GPU机器混布，额外存储成本为零，95%请求几乎不用计算。
调度优化：LLM-Router调度器实现KV Cache亲和调度，L2缓存命中率提升25%，单机输入吞吐提升30%。
Decode优化：显存优化使KVCache有效容量提升近5倍；原生3层MTP（多token预测）在agentic场景下，前128个token加速2.3倍，128～256个token加速1.5倍。
多模态优化：基于SGLang的EPD方案，Encoder吞吐提升至2倍，1小时视频端到端延时从156秒降至23秒。

小米押注AI：600亿投入与“人车家”全生态闭环

在降价和技术亮剑背后，是小米对AI的全力押注。财报显示，一季度研发支出达90亿元，同比增长33.4%。小米承诺今年AI投入至少160亿元，未来三年投入将超600亿元，全力推进“人车家”全生态AI闭环。总裁卢伟冰在财报会议上表示，目前AI商业化刚开始，重点在于强化基础模型能力，不会急于马上追求AI变现。然而，这一豪赌也引发质疑：手机基本盘不稳、汽车亏损扩大，600亿砸下去能否跑出第二增长曲线？但无论如何，罗福莉团队用技术证明：降价不是自杀式倾销，而是结构性成本优势的变现。

小米紧随 DeepSeek 疯狂降价，罗福莉却劝同行别盲目跟风？

小米MiMo跟进DeepSeek，API最高降幅99%引热议

罗福莉解密：降价的底气来自Hybrid SWA架构与全链路优化

罗福莉劝同行：别盲目打价格战，多数模型撑不住

技术细节：从KV Cache分池到MTP加速，全链路复盘

小米押注AI：600亿投入与“人车家”全生态闭环

链接失效反馈