小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡

第三方接口滥用是算力黑洞,罗福莉点破虚假 token 狂欢

面对近期 Anthropic 对 Claude Code 接入第三方 harness(如 OpenClaw)的限制,小米 MiMo 大模型负责人罗福莉在社交平台发文,直言行业此前“一直在一场无法持续的虚假 token 消耗狂欢里”。她指出,第三方 harness 的上下文管理极为粗放:单次用户查询会触发多轮低价值工具调用,每轮作为独立 API 请求发出,上下文窗口常超 100K tokens,实际请求次数是原生框架的数倍,折算成 API 定价,真实成本可达订阅价格的数十倍。更严重的是,第三方在接近上下文长度限制时频繁压缩工具返回结果,导致 cache 命中率极低。这就像健身房赌用户办卡不来,但第三方让每个用户 7×24 小时高强度训练,平台成本必然失控。罗福莉强调:“痛苦会推动 harness 改进上下文管理和减少无效 token 消耗,最终转化为工程纪律。”

MiMo Token Plan 另辟蹊径:按实际用量计费,成本透明

与 Anthropic 被迫封禁第三方不同,小米 MiMo 走了一条完全不同的路径——Token Plan。这一计费结构不再按订阅周期加请求次数,而是按实际 token 消耗量配额,开发者购买以 Credit 为单位的 token 额度。无论是使用原生框架还是第三方 harness,每一个浪费的 token 都直接从用户额度里扣除,平台不再为低效 harness 买单。罗福莉表示,MiMo 的原始推理成本远低于行业平均水平,通过这种透明机制,平台能够基本维持收支平衡。正如 MiMo-V2-Flash 开源时的 API 定价:输入 0.7 元/百万 tokens,输出 2.1 元/百万 tokens,已体现出极致的性价比。而在最新的 MiMo-V2.5 系列中,旗舰推理模型 MiMo-V2.5-Pro 相比竞品可节省 42%-50% Token,进一步降低了用户实际使用成本。

小米罗福莉谈 MiMo API 降价:原始推理成本远低于行业平均水平,基本可以维持收支平衡

订阅制陷阱:低价不是出路,效率才是核心

罗福莉警告大模型公司:“不要在还没搞清楚 coding plan 怎么定价之前,就跟着降价内卷。”她指出,低价订阅的问题不在于便宜本身,而在于它切断了用量与成本之间的信号传导。当第三方 harness 接入时,平台被迫吸收算力浪费,最终只能降速、限流、换用低智模型来止损,用户体验和留存都会崩塌。Anthropic 刚从这个陷阱里走出来。罗福莉直言:“Agent 时代不属于烧算力最多的人,而属于用算力最聪明的人。”下一轮竞争的核心指标不再是“每 token 多便宜”,而是“每 token 能完成多少有效工作”。MiMo-V2.5 系列正是基于这一理念打造:专为智能体场景设计,支持单次近千轮工具调用,在保持高性能的同时大幅降低 token 消耗。

算力供给追不上 Agent 消耗,协同进化才是出路

罗福莉在分析 Anthropic 动作时指出:“全球算力的供给速度,已经追不上 Agent 场景下 token 消耗的增速。”单纯压低 token 价格只会加速消耗,而不会改变结构。真正的出路在于“更高 token 效率的 agent harness,乘以更强大、更高效的模型”。小米 MiMo-V2.5 系列正是这个方向的最新成果:旗舰推理模型 MiMo-V2.5-Pro 在 MiMo Coding Bench 上得分 73.7,逼近 Claude Opus 4.6 的 77.1 分,同时 Token 消耗大幅降低;全模态 Agent 模型 MiMo-V2.5 在 Claw-Eval 基准中性能全面超越前代,API 成本降低约 50%。这意味着用户可以用更少的 token 完成更多有效工作,算力效率得到质的提升。

MiMo-V2.5 突袭:专为智能体场景,Token 节省高达 50%

就在 DeepSeek V4 即将发布之际,小米 MiMo 于深夜发布了 MiMo-V2.5 系列四款新模型,全部为智能体场景原生打造。其中 MiMo-V2.5-Pro 相比 Kimi K2.6 节省 42% Token,相比 Meta 的 Muse Spark 节省 50% Token。MiMo-V2.5-Pro 可以在 4.3 小时内完成北大《编译原理》课程项目(满分 233 分),经过 672 次工具调用。同时,MiMo Token Plan 同步优化,支持 MiMo 系列 8 款模型按 Credit 计费,旗舰模型 MiMo-V2.5 消耗 1 Token=1 Credit,Pro 版本为 2x。罗福莉在小米“人车家全生态”合作伙伴大会上首次公开亮相时强调,MiMo-V2-Flash 推理速度是 DeepSeek V3.2 的 3 倍且成本更低,而 MiMo-V2.5 系列则进一步巩固了“用算力最聪明”的竞争壁垒。