小米罗福莉谈 MiMo API 降价：原始推理成本远低于行业平均水平，基本可以维持收支平衡

1 个月前

AI资讯

42 阅读

罗福莉 API MIMO [小米降价]

第三方接口滥用是算力黑洞，罗福莉点破虚假 token 狂欢

面对近期 Anthropic 对 Claude Code 接入第三方 harness（如 OpenClaw）的限制，小米 MiMo 大模型负责人罗福莉在社交平台发文，直言行业此前“一直在一场无法持续的虚假 token 消耗狂欢里”。她指出，第三方 harness 的上下文管理极为粗放：单次用户查询会触发多轮低价值工具调用，每轮作为独立 API 请求发出，上下文窗口常超 100K tokens，实际请求次数是原生框架的数倍，折算成 API 定价，真实成本可达订阅价格的数十倍。更严重的是，第三方在接近上下文长度限制时频繁压缩工具返回结果，导致 cache 命中率极低。这就像健身房赌用户办卡不来，但第三方让每个用户 7×24 小时高强度训练，平台成本必然失控。罗福莉强调：“痛苦会推动 harness 改进上下文管理和减少无效 token 消耗，最终转化为工程纪律。”

MiMo Token Plan 另辟蹊径：按实际用量计费，成本透明

与 Anthropic 被迫封禁第三方不同，小米 MiMo 走了一条完全不同的路径——Token Plan。这一计费结构不再按订阅周期加请求次数，而是按实际 token 消耗量配额，开发者购买以 Credit 为单位的 token 额度。无论是使用原生框架还是第三方 harness，每一个浪费的 token 都直接从用户额度里扣除，平台不再为低效 harness 买单。罗福莉表示，MiMo 的原始推理成本远低于行业平均水平，通过这种透明机制，平台能够基本维持收支平衡。正如 MiMo-V2-Flash 开源时的 API 定价：输入 0.7 元/百万 tokens，输出 2.1 元/百万 tokens，已体现出极致的性价比。而在最新的 MiMo-V2.5 系列中，旗舰推理模型 MiMo-V2.5-Pro 相比竞品可节省 42%-50% Token，进一步降低了用户实际使用成本。

小米罗福莉谈 MiMo API 降价：原始推理成本远低于行业平均水平，基本可以维持收支平衡

订阅制陷阱：低价不是出路，效率才是核心

罗福莉警告大模型公司：“不要在还没搞清楚 coding plan 怎么定价之前，就跟着降价内卷。”她指出，低价订阅的问题不在于便宜本身，而在于它切断了用量与成本之间的信号传导。当第三方 harness 接入时，平台被迫吸收算力浪费，最终只能降速、限流、换用低智模型来止损，用户体验和留存都会崩塌。Anthropic 刚从这个陷阱里走出来。罗福莉直言：“Agent 时代不属于烧算力最多的人，而属于用算力最聪明的人。”下一轮竞争的核心指标不再是“每 token 多便宜”，而是“每 token 能完成多少有效工作”。MiMo-V2.5 系列正是基于这一理念打造：专为智能体场景设计，支持单次近千轮工具调用，在保持高性能的同时大幅降低 token 消耗。

算力供给追不上 Agent 消耗，协同进化才是出路

罗福莉在分析 Anthropic 动作时指出：“全球算力的供给速度，已经追不上 Agent 场景下 token 消耗的增速。”单纯压低 token 价格只会加速消耗，而不会改变结构。真正的出路在于“更高 token 效率的 agent harness，乘以更强大、更高效的模型”。小米 MiMo-V2.5 系列正是这个方向的最新成果：旗舰推理模型 MiMo-V2.5-Pro 在 MiMo Coding Bench 上得分 73.7，逼近 Claude Opus 4.6 的 77.1 分，同时 Token 消耗大幅降低；全模态 Agent 模型 MiMo-V2.5 在 Claw-Eval 基准中性能全面超越前代，API 成本降低约 50%。这意味着用户可以用更少的 token 完成更多有效工作，算力效率得到质的提升。

MiMo-V2.5 突袭：专为智能体场景，Token 节省高达 50%

就在 DeepSeek V4 即将发布之际，小米 MiMo 于深夜发布了 MiMo-V2.5 系列四款新模型，全部为智能体场景原生打造。其中 MiMo-V2.5-Pro 相比 Kimi K2.6 节省 42% Token，相比 Meta 的 Muse Spark 节省 50% Token。MiMo-V2.5-Pro 可以在 4.3 小时内完成北大《编译原理》课程项目（满分 233 分），经过 672 次工具调用。同时，MiMo Token Plan 同步优化，支持 MiMo 系列 8 款模型按 Credit 计费，旗舰模型 MiMo-V2.5 消耗 1 Token=1 Credit，Pro 版本为 2x。罗福莉在小米“人车家全生态”合作伙伴大会上首次公开亮相时强调，MiMo-V2-Flash 推理速度是 DeepSeek V3.2 的 3 倍且成本更低，而 MiMo-V2.5 系列则进一步巩固了“用算力最聪明”的竞争壁垒。

小米罗福莉谈 MiMo API 降价：原始推理成本远低于行业平均水平，基本可以维持收支平衡

第三方接口滥用是算力黑洞，罗福莉点破虚假 token 狂欢

MiMo Token Plan 另辟蹊径：按实际用量计费，成本透明

订阅制陷阱：低价不是出路，效率才是核心

算力供给追不上 Agent 消耗，协同进化才是出路

MiMo-V2.5 突袭：专为智能体场景，Token 节省高达 50%

链接失效反馈