MiniMax M3终于来了,指标很强,但社区炒翻了

M3发布即刷榜,编程与智能体能力超越GPT-5.5

6月1日,MiniMax正式上线新模型M3,官方宣称其在编程(Coding)与智能体(Agent)能力上实现了代际突破。在衡量编程能力的基准测试SWE-Bench Pro上,M3分数超过OpenAI GPT-5.5和谷歌Gemini 3.1 Pro,逼近Claude Opus 4.7;在SVG生成基准SVG-Bench上,M3甚至超越了Opus 4.7。此外,M3在OmniDocBench和Claw-Eval多模态与端到端Agent评估框架中也斩获最高分。M3还具备原生多模态能力,支持图片、视频输入,并能操控电脑桌面完成跨应用、跨文件、跨系统的复杂操作——例如用户只需说“帮我打开本地ERP客户端,按这份Excel批量录入发票信息”,MiniMax Code即可自动执行。

社区炸锅:跑分神游但钱包“缩水”

尽管纸面数据惊艳,海内外用户却并不买账。不少开发者直言“不再相信跑分”,认为真实世界的编程能力取决于用户逻辑与长期协作,基准测试难以反映实际体验。更引发争议的是,MiniMax同步调整了Token Plan订阅规则,许多用户反馈Token消耗变快、变相涨价。此前“量大管饱”的套餐不复存在,M3 API按上下文长度分两档收费:512k以内输入4.2元/百万tokens、输出16.8元/百万tokens(限时五折);512k-1M则是8.4元/百万输入、33.6元/百万输出。用户抱怨“还没爽几天,钱就烧没了”。受此影响,6月1日早盘MiniMax(00100.HK)一度涨超7%,随即一路下挫,最终收跌15.7%,报708港元/股,市值蒸发超400亿港元。

自研稀疏注意力MSA,百万上下文成本仅为上一代1/20

支撑M3强悍能力的核心是其全新自研的稀疏注意力架构MSA(MiniMax Sparse Attention)。传统全注意力机制在处理超长上下文时计算成本呈指数级增长,而MSA通过稀疏化设计,将M3的最大上下文窗口提升至100万tokens。MiniMax披露,在100万上下文规模下,M3每token的计算量仅为上一代模型的约1/20,推理效率显著提升。这一架构让M3能够一次性处理长文档、复杂代码仓库、多轮任务协作等信息密集型场景,为高难度的自主智能体任务奠定了基础。例如,M3曾自主运行近12小时,独立复现了一篇获奖论文《Learning Dynamics of LLM Finetuning》,成功验证了DPO实验中的squeezing效应及其缓解方法。

涨价争议背后:模型厂商扛不住补贴,向Token计费靠拢

对于涨价争议,行业人士分析认为,此前订阅制普遍是补贴价,随着智能体发展加速Token消耗,模型厂商难以持续承担高额成本。MiniMax官方也解释,Token Plan在满用量下比按量付费实惠10倍以上,同价位下用量约为Claude订阅的15倍,定位是“提供同价位订阅产品里最高的使用量”。但用户普遍感受是“变相涨价”。财报数据显示,MiniMax目前仍在亏损中:2025年营收7904万美元,同比增长159%,但亏损同比扩大302%至18.7亿美元,经调整净亏损为2.5亿美元。智能体的高算力消耗与商业化压力,促使MiniMax从“拼补贴”转向“算账式”定价。与此同时,公司已向上海证监局提交上市辅导备案,准备启动A股科创板上市进程,资本动作密集。