超越DeepSeek-V4，罗福莉交出小米最强开源模型，首日适配5家国产芯片

1 小时前

AI资讯

3 阅读

深度学习小米 [大模型国产芯片]

小米大模型负责人罗福莉带领团队发布MiMo-V2.5系列模型，包含旗舰推理模型MiMo-V2.5-Pro和MiMo-V2.5两款产品，其中MiMo-V2.5-Pro拥有1.02万亿参数，420亿激活参数，基于混合注意力架构，在GDPVal-AA（Elo）、Claw-Eval（pass^3）等评测中表现优于DeepSeek-V4-Pro、Kimi K2.6等主流模型。

模型技术细节与训练方法

MiMo-V2.5-Pro采用了混合注意力架构，结合局部滑动窗口注意力（SWA）和全局注意力（GA）以6:1比例交错使用，窗口大小为128个Token，同时通过可学习的注意力池偏置将键值缓存存储空间减少近7倍，提升了推理效率。

训练过程采用三阶段范式：

监督式微调：在精选数据对上建立基础指令跟踪；
领域专精训练：不同教师模型分别通过特定领域的强化学习进行优化，涵盖数学、安全、工具调用等领域；
多教师策略蒸馏（MOPD）：单一学生模型在Token级指导下，从自身展开中融合多个教师模型能力。

MiMo-V2.5则是一款3100亿参数的稀疏MoE模型，拥有150亿激活参数，训练数据达48万亿Token，支持跨模态任务处理，包括视觉、音频、文本融合，上下文扩展至100万Token。

开源首日完成多家芯片厂商适配

小米在开源MiMo-V2.5-Pro首日便宣布完成多个芯片厂商的适配，包括：

超越DeepSeek-V4，罗福莉交出小米最强开源模型，首日适配5家国产芯片

阿里平头哥
亚马逊云科技
AMD
百度昆仑芯
燧原科技
沐曦
天数智芯

其中，与亚马逊云科技基于Trainium2芯片与Neuron SDK + vLLM推理框架完成深度适配，实现“开源即全球可用”的Day 0部署。下一代3nm制程Trainium3芯片将进一步释放模型性能。

同时，该系列模型已与主流推理框架SGLang和vLLM完成Day 0适配，进一步提升部署灵活性与跨平台兼容性。

Token激励与Agent生态建设

小米同步推出“百万亿Token创造者激励计划”，在30天内免费发放总计100万亿Token权益。该计划采取申请制，通过审核者可获得Max档位Token Plan，包含16亿Credits，价值659元。

此外，小米还推出“Agent生态共建计划”，与以下框架厂商达成合作：

OpenCode
Hermes Agent
KiloCode

该计划为框架平台提供MiMo Token限免支持，并参与AI Hackathon等共创活动，加速Agent技术的生态落地。

模型性能测评与实际应用案例

根据小米公开的测评数据，MiMo-V2.5-Pro在多项基准测试中超过DeepSeek-V4-Pro模型，尤其在Claw-Eval、SWE-Bench Pro、GDPVal-AA（Elo）等任务导向型评测中表现突出。

实际应用案例包括：

用Rust语言独立实现完整的SysY编译器，完成词法分析、语法解析、IR生成与RISC-V后端；
构建视频编辑器Web应用，具备多轨道时间线、片段裁剪、音频混合等功能，历时11.5小时完成；
模拟电路EDA设计任务中，通过与ngspice仿真工具闭环迭代，1小时内完成设计并优化多项指标。

MiMo-V2.5-Pro相比Kimi K2.6节省42% Token成本，而MiMo-V2.5相比Meta Muse Spark节省50% Token，显示出更高的性价比。

行业影响与未来趋势

小米MiMo-V2.5系列的开源与多芯片适配标志着中国大模型生态正在加速国产化步伐。此前，华为昇腾适配DeepSeek V4引发广泛关注，如今小米模型开源首日便完成与多家国产芯片厂商的对接，表明“Day 0适配”已成为行业标配。

行业观察指出：

模型性能竞争已从“拼参数”转向“拼部署效率”；
推理成本与任务执行效率成为智能体模型商用核心；
Token激励计划和Agent生态共建推动开发者落地；
终端厂商与系统生态深度融合，加速人车家全场景AI演进。

此次小米与罗福莉团队的技术突破，不仅在模型层面超越了多款闭源和开源旗舰模型，也在国产算力生态和开发者激励上形成闭环，预示着AI大模型进入“实用化+生态化”新阶段。

超越DeepSeek-V4，罗福莉交出小米最强开源模型，首日适配5家国产芯片

模型技术细节与训练方法

开源首日完成多家芯片厂商适配

Token激励与Agent生态建设

模型性能测评与实际应用案例

行业影响与未来趋势

链接失效反馈