小米雷军:MiMo 昨晚发布 V2.5-Pro-UltraSpeed,这是业内首次在 1 万亿参数模型上突破 1000 tokens/s 输出速度
推理速度破千:万亿参数模型跑出光速
2026年4月27日,小米创始人雷军宣布MiMo-V2.5-Pro-UltraSpeed正式发布。这是业内首次在1万亿参数规模的混合专家(MoE)模型上实现超过1000 tokens/s的输出速度。该模型总参数量达1.02万亿,每次推理仅激活420亿参数,在完全不降低模型能力的前提下,将推理速度提升至接近实时交互的水平。据透露,这一突破不依赖任何定制芯片或专用硬件,完全通过模型推理系统的全链路工程能力优化完成。
- 核心指标:1万亿总参数、420亿激活参数、输出速度>1000 tokens/s。
- 实现路径:算法架构与底层工程协同优化,而非硬件换代。
- 行业意义:首次证明通用GPU也能承担万亿级大模型的高吞吐推理,大幅降低了大模型部署的硬件门槛。
工程全链路优化:通用GPU榨出极限性能
MiMo-V2.5-Pro-UltraSpeed并非通过堆算力换取速度,而是对模型推理系统的全链路工程进行深度调优。小米团队在数据传输、显存管理、算子融合、计算调度等环节逐级突破瓶颈,使得万亿参数模型的每一步推理都像精密流水线一样高效运作。具体优化包括:
- 显存零拷贝:通过动态显存复用技术,减少KV Cache的冗余占用,让更多活跃参数留在高速缓存中。
- 异构计算调度:利用CPU与GPU的协同分工,将注意力计算、门控网络、输出层等不同负载分配到最优硬件单元。
- 算子级融合:将多个小算子合并为一个大内核执行,消除反复的内存搬运和调用开销。

最终,这套优化体系让通用GPU集群在万亿参数模型上跑出了此前仅在小模型上才见的千级tokens/s速度。雷军在微博点评称,小米在AI领域相对低调,但实际进展比外界看到的快得多。
从V2-Pro到V2.5-Pro的迭代:调用量破万亿与全球排位赛
MiMo-V2.5-Pro-UltraSpeed并非平地起高楼,它的基础来自三个月前发布的MiMo-V2-Pro。后者凭借1T参数、42B激活参数、100万token上下文,在Text Arena权威评测中Model Rank跻身全球前五,仅次于Anthropic、OpenAI、Google。同时,小米在LabRank维度排全球第四,Code Arena排全球第五。这一成绩背后是三个技术支柱:
- MOPD(多教师在线策略蒸馏):让学生模型自己生成回答,并实时接受多个领域专家教师的token级监督,解决“跷跷板效应”。
- Agentic RL(智能体强化学习):从真实GitHub Issues中提取数据,让模型在代码agent循环中试错学习,培养通用问题解决能力。
- ARL-Tangram(Agent RL训练基础设施):与北大联合研发,动态分配外部资源,将动作完成时间提升4.3倍,资源消耗降低71.2%。
截至2026年4月3日,MiMo大模型调用量已累计超过1万亿Token。在OpenRouter全球调用量排名中,MiMo-V2-Pro蝉联日榜、周榜、趋势榜Top1,最近一周Token消耗量突破4万亿。
从手机到汽车:MiMo如何重塑小米生态
MiMo-V2.5-Pro-UltraSpeed的极速推理能力,让小米的“云-边-端”协同战略真正落地成为可能。在高端手机端,基于MiMo大模型构建的Xiaomi miclaw应用已在“龙虾”封测版本中上线,探索AI原生交互。更关键的是汽车场景:
- 智驾技术路线:2026年3月小米汽车将感知与规控合并为“端到端算法与功能部”,全面转向端到端大模型,目标年内交付。
- 教师模型蒸馏:V2.5-Pro-UltraSpeed作为云端教师模型,通过MOPD将能力蒸馏至车端轻量模型,让其获得接近云端水平的推理质量。
- 对比特斯拉:Grok已入驻特斯拉车机,但仅作为语音助手,与FSD的联动浅层;而小米的云端-端侧协同计划让大模型深度参与驾驶决策推理。
雷军此前提出的公式“(软件×硬件)^AI”正在从愿景走向现实——MiMo不再只是一个排名榜单上的数字,而是驱动手机、汽车、IoT设备智能化的核心引擎。
成绩单背后的未答之问:开源与硬核评测
尽管MiMo-V2.5-Pro-UltraSpeed在速度和规模上创造了记录,但它依然面临两份未完成的“答卷”。首先,MiMo-V2-Pro在SWE-bench Verified测试中得分78.0%,接近Claude 4.6 Sonnet的79.6%,但OpenAI指出该测试集“已经饱和且高度被污染”,更抗污染的SWE-bench Pro才是2026年编码能力的真实标尺——目前最高分仅57.7%。MiMo并未公布该项成绩。
- 缺席的关键评测:ARC-AGI-2(推理泛化能力,纯LLM仅1%)、Frontier Math(前沿数学推理)、LiveCodeBench v6(按月更新的编程评测)等新一代测试集均未参与。
- 开源承诺待兑现:MiMo-V2-Flash已以MIT协议开源,但V2-Pro/V2.5-Pro权重均未放开。罗福莉(ARL-Tangram通讯作者)表示“当模型足够稳定值得开源时再开源”,目前V2.5-Pro仍处于快速迭代期。
雷军在发布时坦承“模型刚刚完成,未来一段时间还会快速迭代增强”。这颗性能爆发的“引擎”能否真正嵌入小米庞大的商业版图,而不只是挂在排行榜上供人瞩目,还需要更全面的硬核测试与开源生态来验证。