小米发布 MiMo-V2.5-Pro UltraSpeed 模式,3 倍价格 10 倍输出体验

1T 巨量模型跑出 1000 tokens/s:UltraSpeed 模式核心突破

小米正式为 MiMo-V2.5-Pro 万亿参数旗舰模型推出 UltraSpeed 体验模式,将推理速度首次推至 1000 tokens/s 的行业新高。该模式通过 计算流水线常驻 GPU 持续流转全链路预取 实现数据搬运与计算极致重叠,彻底摒弃逐算子启动。在 Tile 级拆分上,通信、搬运、张量计算被分配到不同线程束并行执行,令 GPU 演变为持续流动的异构执行系统。小米宣称,这一突破 无需芯片定制、不牺牲模型质量,打破了“快、强、通用 GPU 不可兼得”的不可能三角。

3 倍价格换取 10 倍输出体验:定价策略与场景定位

UltraSpeed 模式的定价为 标准 V2.5-Pro 的 3 倍,但输出速度提升至 10 倍。目前提供 限时体验价,具体额度未在资料中披露,但明确指向 极致实时场景 如语音交互、实时编程辅助和多轮 Agent 推理。与标准 Pro 模式相比,UltraSpeed 的目标用户是那些对延迟极度敏感、需要“思考即所得”体验的开发者与企业客户。小米表示,该模式尤其适合 高频率 token 生成任务,在效率上可直接替代数倍同价位竞品。

开源旗舰与极致效率:MiMo-V2.5-Pro 性能实测

小米同步开源了 MiMo-V2.5 系列模型,其中 Pro 版本为 1.02T 总参数、42B 活跃参数的 MoE 模型。在多项基准测试中表现突出:在 GDPVal-AA(Elo)评测中得 1581 分,超越 Kimi K2.6 与 GLM 5.1;在 ClawEval 上以 每条轨迹约 7 万 token 的消耗取得 64% Pass^3,相比 Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4 节约 40%–60% token。社区反馈称 V2.5-Pro 是“当前 token 效率最高的开源模型”,但也指出其思考时间偏长,且在某些隐秘 bug 发现能力上不及 GPT 和 Claude。

混合注意力架构与五阶段演进:技术硬实力解析

V2.5-Pro 采用 混合注意力架构——局部滑动窗口注意力与全局注意力按 6:1 比例交错,窗口大小为 128 token,并继承自 V2-Flash 的 Multi-Token Prediction(MTP) 设计。支持 最高 1M token 上下文长度,输出/输入缓存定价按上下文窗口分段(256K 以内输入 $1/百万 token,输出 $3/百万 token;超长上下文翻倍)。小米透露该模型遵循严格的 五阶段演进路线(具体阶段未在本次资料中展开),持续优化长周期一致性与复杂软件工程能力。

从 API 到 Agent 生态:小米大模型的开放布局

小米不仅发布 UltraSpeed 模式,还开放了 Agent 生态共建合作伙伴 计划,并提供 API 兼容 OpenAI 格式(base_url="https://api.xiaomimimo.com/v1"model="mimo-v2.5-pro-ultraspeed")。同时,MiMo 系列已覆盖语音识别(V2.5-ASR)、语音合成(V2.5-TTS)、多模态与长上下文 Agent 等全栈能力。平台发布了关于 Agent 类产品多轮会话中 reasoning_content 回传的说明,显示对开发者的细致支持。小米正通过“开源 + 超速推理 + 开放平台”的组合拳,将大模型从单纯的 API 工具升级为协同生长的生态系统。