小米MiMo降价99%并非营销!罗福莉发X打脸唱衰者

41 分钟前
1 阅读

罗福莉X上发文:降价不是营销,是技术让渡

小米技术宣布MiMo-V2.5系列API永久降价,最高降幅达99%,且取消上下文窗口长度的价格区分。这一消息引发市场热议,部分声音质疑是营销手段。负责人罗福莉在社交平台发文正面回应:降价完全是基于技术架构的结构性成本优势向开发者的让渡。她指出,推理框架已支持针对SWA的分层KV缓存优化,生产测试显示缓存Token容量提升5倍,缓存成本降低80%;叠加Hybrid模型多Full Attention模块间的缓存读取重叠机制,成本进一步压降。输入未命中及输出价格同步下调60%至80%,根源在于模型采用1∶7的Full∶SWA稀疏比,70层Pro版的prefill计算量仅相当于10层GQA模型,原始推理成本远低于行业均值,“定价中本就留存了两至三倍利润空间,此次调整实为合理让利。”

从被质疑到硬核打脸:1个月迭代出接近顶尖的模型

此前,有评论者曾撰文质疑小米“只公布SWE-bench Verified这个公认有水分的评分结果,却没有公布SWE-bench Pro这个真正抗污染的测试成绩”。如今MiMo-V2.5-Pro发布,小米直接把SWE-bench Pro放在了宣传榜第一,并在OpenRouter模型描述中强调“top rankings on benchmarks such as ClawEval, GDPVal, and SWE-bench Pro”。成绩显示,MiMo-V2.5-Pro已与Claude Opus 4.6、GPT-5.4这两个全球最顶尖模型相当。打脸来得如此之快——从V2-Pro的3月下旬发布到V2.5-Pro的4月底,小米仅用1个月就完成了下一代模型的迭代。该评论者本人也发文坦言“我被罗福莉打脸了”,并表示“这是好事,也乐意被打脸”。

小米MiMo降价99%并非营销!罗福莉发X打脸唱衰者

降价底牌:架构创新让推理成本暴降

罗福莉在X上进一步解释了降价的底气来源。她指出,降价后推理引擎已近满载运行,但仍可维持收支平衡——这正是因为MiMo-V2.5系列在模型架构上进行了根本性创新。除了上述KV缓存优化和稀疏比设计外,MiMo还将Agent能力、长上下文、多模态、token效率打包进同一代产品。例如,在ClawEval上,MiMo-V2.5-Pro以约7万token/trajectory达到64% Pass³,相较竞品少用40%到60% token。这种token效率直接转化为用户的实际成本节省。罗福莉强调,价格合理且性能优异的API将驱动大规模真实推理需求,拉动芯片、服务器、光模块、液冷、电力等整条AI硬件链,为AGI多路线并行演进提供算力基础。

雷军的算力生意:Token Plan与开源承诺

降价并非孤立事件,而是小米Token Plan订阅体系的一部分。自4月3日发布Token Plan以来,小米已从Lite ¥39/月到Max ¥659/月共4档,新增夜间8折、包年88折等运营商式定价策略,并对老用户全量重置已用Credits。Token Plan适配Claude Code、OpenClaw等主流AI开发框架,本质是争夺AI原生应用的底层基础设施入口。更深一层,如果小米汽车、IoT设备的第三方应用都基于MiMo开发,雷军就掌握了整个生态的“算力税收权”。但罗福莉此前承诺“MiMo-V2系列会在技术足够稳定、真正配得上开源时开源”,如今V2.5系列声称“即将全球开源”,能否兑现成为Token Plan能否起飞的关键。

光鲜之下:仍存短板与待解之谜

尽管降价和技术成绩令人振奋,但小米仍有明显短板要补。SWE-bench Pro最高分目前是Claude Mythos Preview的77.8%,MiMo-V2.5-Pro的57.2%还有20个百分点的差距。在通用高阶推理天花板测试Humanity's Last Exam上,MiMo-V2.5-Pro得分48.0%,而GPT-5.4是58.7%——高阶知识密度与跨学科抽象推理仍是薄弱环节。另外,超长链工具调用(如1868次调用)中,有多少次是无效、重复或错误调用?这些细节尚未公开。罗福莉强调的“harness awareness”是否真正来自模型自主能力,还是高度依赖特定工具框架(Claude Code、OpenClaw等)?小米至今没有自己的harness工具。从“实验室showcase”到“大企业放心上生产”,还有一层更硬的工程披露需要补齐。