小米发布 MiMo-V2.5-Pro UltraSpeed 模式，3 倍价格 10 倍输出体验

1 个月前

AI资讯

24 阅读

MIMO [小米 AI推理]UltraSpeed

1T 巨量模型跑出 1000 tokens/s：UltraSpeed 模式核心突破

小米正式为 MiMo-V2.5-Pro 万亿参数旗舰模型推出 UltraSpeed 体验模式，将推理速度首次推至 1000 tokens/s 的行业新高。该模式通过 计算流水线常驻 GPU 持续流转 和 全链路预取 实现数据搬运与计算极致重叠，彻底摒弃逐算子启动。在 Tile 级拆分上，通信、搬运、张量计算被分配到不同线程束并行执行，令 GPU 演变为持续流动的异构执行系统。小米宣称，这一突破 无需芯片定制、不牺牲模型质量，打破了“快、强、通用 GPU 不可兼得”的不可能三角。

3 倍价格换取 10 倍输出体验：定价策略与场景定位

UltraSpeed 模式的定价为 标准 V2.5-Pro 的 3 倍，但输出速度提升至 10 倍。目前提供 限时体验价，具体额度未在资料中披露，但明确指向 极致实时场景 如语音交互、实时编程辅助和多轮 Agent 推理。与标准 Pro 模式相比，UltraSpeed 的目标用户是那些对延迟极度敏感、需要“思考即所得”体验的开发者与企业客户。小米表示，该模式尤其适合 高频率 token 生成任务，在效率上可直接替代数倍同价位竞品。

开源旗舰与极致效率：MiMo-V2.5-Pro 性能实测

小米同步开源了 MiMo-V2.5 系列模型，其中 Pro 版本为 1.02T 总参数、42B 活跃参数的 MoE 模型。在多项基准测试中表现突出：在 GDPVal-AA（Elo）评测中得 1581 分，超越 Kimi K2.6 与 GLM 5.1；在 ClawEval 上以 每条轨迹约 7 万 token 的消耗取得 64% Pass^3，相比 Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4 节约 40%–60% token。社区反馈称 V2.5-Pro 是“当前 token 效率最高的开源模型”，但也指出其思考时间偏长，且在某些隐秘 bug 发现能力上不及 GPT 和 Claude。

混合注意力架构与五阶段演进：技术硬实力解析

V2.5-Pro 采用 混合注意力架构——局部滑动窗口注意力与全局注意力按 6:1 比例交错，窗口大小为 128 token，并继承自 V2-Flash 的 Multi-Token Prediction（MTP） 设计。支持 最高 1M token 上下文长度，输出/输入缓存定价按上下文窗口分段（256K 以内输入 $1/百万 token，输出 $3/百万 token；超长上下文翻倍）。小米透露该模型遵循严格的 五阶段演进路线（具体阶段未在本次资料中展开），持续优化长周期一致性与复杂软件工程能力。

从 API 到 Agent 生态：小米大模型的开放布局

小米不仅发布 UltraSpeed 模式，还开放了 Agent 生态共建合作伙伴 计划，并提供 API 兼容 OpenAI 格式（base_url="https://api.xiaomimimo.com/v1" 及 model="mimo-v2.5-pro-ultraspeed"）。同时，MiMo 系列已覆盖语音识别（V2.5-ASR）、语音合成（V2.5-TTS）、多模态与长上下文 Agent 等全栈能力。平台发布了关于 Agent 类产品多轮会话中 reasoning_content 回传的说明，显示对开发者的细致支持。小米正通过“开源 + 超速推理 + 开放平台”的组合拳，将大模型从单纯的 API 工具升级为协同生长的生态系统。