小米雷军：MiMo 昨晚发布 V2.5-Pro-UltraSpeed，这是业内首次在 1 万亿参数模型上突破 1000 tokens/s 输出速度

1 个月前

AI资讯

47 阅读

MIMO [小米万亿参数推理速度]

推理速度破千：万亿参数模型跑出光速

2026年4月27日，小米创始人雷军宣布MiMo-V2.5-Pro-UltraSpeed正式发布。这是业内首次在1万亿参数规模的混合专家（MoE）模型上实现超过1000 tokens/s的输出速度。该模型总参数量达1.02万亿，每次推理仅激活420亿参数，在完全不降低模型能力的前提下，将推理速度提升至接近实时交互的水平。据透露，这一突破不依赖任何定制芯片或专用硬件，完全通过模型推理系统的全链路工程能力优化完成。

核心指标：1万亿总参数、420亿激活参数、输出速度>1000 tokens/s。
实现路径：算法架构与底层工程协同优化，而非硬件换代。
行业意义：首次证明通用GPU也能承担万亿级大模型的高吞吐推理，大幅降低了大模型部署的硬件门槛。

工程全链路优化：通用GPU榨出极限性能

MiMo-V2.5-Pro-UltraSpeed并非通过堆算力换取速度，而是对模型推理系统的全链路工程进行深度调优。小米团队在数据传输、显存管理、算子融合、计算调度等环节逐级突破瓶颈，使得万亿参数模型的每一步推理都像精密流水线一样高效运作。具体优化包括：

显存零拷贝：通过动态显存复用技术，减少KV Cache的冗余占用，让更多活跃参数留在高速缓存中。
异构计算调度：利用CPU与GPU的协同分工，将注意力计算、门控网络、输出层等不同负载分配到最优硬件单元。
算子级融合：将多个小算子合并为一个大内核执行，消除反复的内存搬运和调用开销。

小米雷军：MiMo 昨晚发布 V2.5-Pro-UltraSpeed，这是业内首次在 1 万亿参数模型上突破 1000 tokens/s 输出速度

最终，这套优化体系让通用GPU集群在万亿参数模型上跑出了此前仅在小模型上才见的千级tokens/s速度。雷军在微博点评称，小米在AI领域相对低调，但实际进展比外界看到的快得多。

从V2-Pro到V2.5-Pro的迭代：调用量破万亿与全球排位赛

MiMo-V2.5-Pro-UltraSpeed并非平地起高楼，它的基础来自三个月前发布的MiMo-V2-Pro。后者凭借1T参数、42B激活参数、100万token上下文，在Text Arena权威评测中Model Rank跻身全球前五，仅次于Anthropic、OpenAI、Google。同时，小米在LabRank维度排全球第四，Code Arena排全球第五。这一成绩背后是三个技术支柱：

MOPD（多教师在线策略蒸馏）：让学生模型自己生成回答，并实时接受多个领域专家教师的token级监督，解决“跷跷板效应”。
Agentic RL（智能体强化学习）：从真实GitHub Issues中提取数据，让模型在代码agent循环中试错学习，培养通用问题解决能力。
ARL-Tangram（Agent RL训练基础设施）：与北大联合研发，动态分配外部资源，将动作完成时间提升4.3倍，资源消耗降低71.2%。

截至2026年4月3日，MiMo大模型调用量已累计超过1万亿Token。在OpenRouter全球调用量排名中，MiMo-V2-Pro蝉联日榜、周榜、趋势榜Top1，最近一周Token消耗量突破4万亿。

从手机到汽车：MiMo如何重塑小米生态

MiMo-V2.5-Pro-UltraSpeed的极速推理能力，让小米的“云-边-端”协同战略真正落地成为可能。在高端手机端，基于MiMo大模型构建的Xiaomi miclaw应用已在“龙虾”封测版本中上线，探索AI原生交互。更关键的是汽车场景：

智驾技术路线：2026年3月小米汽车将感知与规控合并为“端到端算法与功能部”，全面转向端到端大模型，目标年内交付。
教师模型蒸馏：V2.5-Pro-UltraSpeed作为云端教师模型，通过MOPD将能力蒸馏至车端轻量模型，让其获得接近云端水平的推理质量。
对比特斯拉：Grok已入驻特斯拉车机，但仅作为语音助手，与FSD的联动浅层；而小米的云端-端侧协同计划让大模型深度参与驾驶决策推理。

雷军此前提出的公式“（软件×硬件）^AI”正在从愿景走向现实——MiMo不再只是一个排名榜单上的数字，而是驱动手机、汽车、IoT设备智能化的核心引擎。

成绩单背后的未答之问：开源与硬核评测

尽管MiMo-V2.5-Pro-UltraSpeed在速度和规模上创造了记录，但它依然面临两份未完成的“答卷”。首先，MiMo-V2-Pro在SWE-bench Verified测试中得分78.0%，接近Claude 4.6 Sonnet的79.6%，但OpenAI指出该测试集“已经饱和且高度被污染”，更抗污染的SWE-bench Pro才是2026年编码能力的真实标尺——目前最高分仅57.7%。MiMo并未公布该项成绩。

缺席的关键评测：ARC-AGI-2（推理泛化能力，纯LLM仅1%）、Frontier Math（前沿数学推理）、LiveCodeBench v6（按月更新的编程评测）等新一代测试集均未参与。
开源承诺待兑现：MiMo-V2-Flash已以MIT协议开源，但V2-Pro/V2.5-Pro权重均未放开。罗福莉（ARL-Tangram通讯作者）表示“当模型足够稳定值得开源时再开源”，目前V2.5-Pro仍处于快速迭代期。

雷军在发布时坦承“模型刚刚完成，未来一段时间还会快速迭代增强”。这颗性能爆发的“引擎”能否真正嵌入小米庞大的商业版图，而不只是挂在排行榜上供人瞩目，还需要更全面的硬核测试与开源生态来验证。

小米雷军：MiMo 昨晚发布 V2.5-Pro-UltraSpeed，这是业内首次在 1 万亿参数模型上突破 1000 tokens/s 输出速度

推理速度破千：万亿参数模型跑出光速

工程全链路优化：通用GPU榨出极限性能

从V2-Pro到V2.5-Pro的迭代：调用量破万亿与全球排位赛

从手机到汽车：MiMo如何重塑小米生态

成绩单背后的未答之问：开源与硬核评测

链接失效反馈