MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

1 个月前

AI资讯

37 阅读

AI]实测 [MiniMax M3

12小时自主复现获奖论文，M3自导自演科研全流程

量子位的实测中，MiniMax把一篇ICLR 2025 Outstanding Paper Award获奖论文甩给M3，要求它接手四个只完成预训练的Base模型，在12小时内自主完成数据合成、训练、评测、迭代全流程。这张试卷没有标准答案，也没有清晰反馈结构。M3先分析每个Base模型的短板，再决定合成哪些数据、选择什么训练策略，拿到评测结果后自己判断哪个方向数据质量不够、下一轮往哪里加力。最终得分0.37，略低于Opus 4.7（0.42）和GPT-5.5（0.39），但明显领先其余模型。更令人咋舌的是，在同一次测试中，M3还完成了另一个硬核任务：从一份任务描述、一个跑不起来的Triton骨架开始，自行优化NVIDIA Hopper FP8矩阵乘算子，经过6轮标志性优化，将硬件峰值利用率从首版7.6%干到71.3%，实现9.4倍加速——而其余模型大多在前30次提交内就主动退出了，M3的最优解出现在第145次提交。

MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

全新MSA架构解锁百万token，推理效率飙升9倍

MiniMax从底层注意力机制入手，自研了一套名为MSA（MiniMax Sparse Attention）的稀疏注意力架构。第一步用轻量索引query对KV块做Block Max Pool，选出Top-k高相关块，算子层面采用KV outer gather Q方式，每块只读一次、访存连续。在M3的head配比下，这种模式比开源的Flash-Sparse-Attention、FlashMoBA快4倍以上。效果上，在100万上下文规模下，M3每token计算量仅为上一代模型的约二十分之一，prefilling阶段提速超过9倍，decoding阶段提速超过15倍，且绝大部分能力与全注意力持平。这意味着处理整本《三体》三部曲的文本量级，M3也能保持高效推理。

地理标记小试牛刀，74个Logo背后的多模态硬实力

实测中有一个极富趣味的任务：老黄PPT上罗列了74个Logo，这些Logo对应着全球各处的美食打卡点，M3需要将它们一一识别并标记在地图上。最终M3成功把老黄去过的9个美食打卡点都准确标出——这看似轻松，实则是对多模态理解、地理知识图谱和空间推理的综合考验。参考相关基准，M3在多模态测试集OmniDocBench上得分超过Gemini 3.1 Pro，在综合评估SVG生成性能的SVG-Bench上甚至超过Opus 4.7。这种原生多模态能力，正是M3能同时看懂论文中的曲线图、数据、公式，再编写代码执行的关键。

编程能力超越GPT-5.5，逼近Claude Opus 4.7

在衡量代码能力的SWE-Bench Pro上，MiniMax M3超过GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7。在面向自主Agent的端到端评测框架Claw-Eval上，M3更是拿到最高分。实际使用中，M3可在MiniMax Code、Token Plan和API服务中第一时间体验，其编程能力不仅体现在代码生成，更体现在自我诊断与迭代：同一次测试中，M3在未经任何参考实现的情况下，自主优化H100 FP8 kernel，找出并修复了原本需要资深工程团队投入1-2周才能解决的生产级问题。这种“能写、能跑、能改”的闭环能力，正是AI从对话助手迈向自主任务执行者的标志性跨越。

MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

12小时自主复现获奖论文，M3自导自演科研全流程

全新MSA架构解锁百万token，推理效率飙升9倍

地理标记小试牛刀，74个Logo背后的多模态硬实力

编程能力超越GPT-5.5，逼近Claude Opus 4.7

链接失效反馈