MiniMax M3一手实测:老黄PPT上74个Logo,我以为能难住它

43 分钟前
1 阅读

12小时自主复现获奖论文,M3自导自演科研全流程

量子位的实测中,MiniMax把一篇ICLR 2025 Outstanding Paper Award获奖论文甩给M3,要求它接手四个只完成预训练的Base模型,在12小时内自主完成数据合成、训练、评测、迭代全流程。这张试卷没有标准答案,也没有清晰反馈结构。M3先分析每个Base模型的短板,再决定合成哪些数据、选择什么训练策略,拿到评测结果后自己判断哪个方向数据质量不够、下一轮往哪里加力。最终得分0.37,略低于Opus 4.7(0.42)和GPT-5.5(0.39),但明显领先其余模型。更令人咋舌的是,在同一次测试中,M3还完成了另一个硬核任务:从一份任务描述、一个跑不起来的Triton骨架开始,自行优化NVIDIA Hopper FP8矩阵乘算子,经过6轮标志性优化,将硬件峰值利用率从首版7.6%干到71.3%,实现9.4倍加速——而其余模型大多在前30次提交内就主动退出了,M3的最优解出现在第145次提交。

MiniMax M3一手实测:老黄PPT上74个Logo,我以为能难住它

全新MSA架构解锁百万token,推理效率飙升9倍

MiniMax从底层注意力机制入手,自研了一套名为MSA(MiniMax Sparse Attention)的稀疏注意力架构。第一步用轻量索引query对KV块做Block Max Pool,选出Top-k高相关块,算子层面采用KV outer gather Q方式,每块只读一次、访存连续。在M3的head配比下,这种模式比开源的Flash-Sparse-Attention、FlashMoBA快4倍以上。效果上,在100万上下文规模下,M3每token计算量仅为上一代模型的约二十分之一,prefilling阶段提速超过9倍,decoding阶段提速超过15倍,且绝大部分能力与全注意力持平。这意味着处理整本《三体》三部曲的文本量级,M3也能保持高效推理。

地理标记小试牛刀,74个Logo背后的多模态硬实力

实测中有一个极富趣味的任务:老黄PPT上罗列了74个Logo,这些Logo对应着全球各处的美食打卡点,M3需要将它们一一识别并标记在地图上。最终M3成功把老黄去过的9个美食打卡点都准确标出——这看似轻松,实则是对多模态理解、地理知识图谱和空间推理的综合考验。参考相关基准,M3在多模态测试集OmniDocBench上得分超过Gemini 3.1 Pro,在综合评估SVG生成性能的SVG-Bench上甚至超过Opus 4.7。这种原生多模态能力,正是M3能同时看懂论文中的曲线图、数据、公式,再编写代码执行的关键。

编程能力超越GPT-5.5,逼近Claude Opus 4.7

在衡量代码能力的SWE-Bench Pro上,MiniMax M3超过GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。在面向自主Agent的端到端评测框架Claw-Eval上,M3更是拿到最高分。实际使用中,M3可在MiniMax Code、Token Plan和API服务中第一时间体验,其编程能力不仅体现在代码生成,更体现在自我诊断与迭代:同一次测试中,M3在未经任何参考实现的情况下,自主优化H100 FP8 kernel,找出并修复了原本需要资深工程团队投入1-2周才能解决的生产级问题。这种“能写、能跑、能改”的闭环能力,正是AI从对话助手迈向自主任务执行者的标志性跨越。