MiniMax M3:真看点是稀疏注意力把百万上下文从「能跑」做到「用得起」,不是榜单 59%
M3 的真信号是 MSA 把 1M 上下文的每 token 算力压到上一代的 1/20、解码提速 15 倍——长上下文 agent 的成本曲线第一次被一家中国实验室往下按。但发布日权重并未开放,「过 10 天再开源」是诚意的试金石。
概述
MiniMax 在 2026-06-01 发布 M3,标题把三件事捆在一起:前沿编码、1M 上下文、原生多模态,并称这是「第一个也是唯一一个同时具备这三者的开放权重模型」。媒体顺势把 SWE-Bench Pro 的 59.0% 拎成头条——超过 GPT-5.5、Gemini 3.1 Pro,逼近 Opus 4.7。
但把跑分当成 M3 的看点,是看错了重点。这次真正值得记住的,是藏在架构层的一个数字:在 100 万 token 的上下文长度下,M3 每个 token 的计算量只有上一代的 1/20,预填充(prefill)提速 9 倍以上、解码(decode)提速 15 倍以上。撑起这个数字的,是 MiniMax 自研的稀疏注意力架构 MSA(MiniMax Sparse Attention)。
这才是 builder 该盯的地方。长上下文 agent 一直不缺「能跑到 1M」的模型,缺的是「跑 1M 还用得起」的模型——全注意力的算力随上下文长度平方膨胀,把百万级上下文的每一轮 agent 循环都变成一笔不划算的账。M3 想回答的,是这条成本曲线能不能被按下去。所以本文要拆的第一层噪音,就是「59% 超 GPT-5.5」这种榜单叙事;它不假,但它不是信号。下面逐层分开看。
发生了什么
MiniMax 同日开放了三条接入路径:MiniMax Code(与 M3 一起训练、专门配套的 agent 产品)、Token Plan 订阅、以及 M3 API。能力侧官方给出的成绩单:SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%;多模态侧 OmniDocBench 超过 Gemini 3.1 Pro、SVG-Bench 超过 Opus 4.7。
架构侧,MSA 是核心叙事。官方的说法是:稀疏注意力普遍靠加一个「预筛选」阶段来回避平方复杂度,而 MSA 相比 DSA、MoBA 这类方法能把 KV 更精细地切成块、拿到更高的「有效上下文覆盖」;在算子层它用了「KV 外层 gather Q」的做法——以 KV 块为外循环、把命中它的 query 聚到一起,每块只读一次、内存访问连续,算术强度比常见实现高,实测比开源的 Flash-Sparse-Attention 和 flash-moba 快 4 倍以上。多次消融里,MSA 在绝大多数能力上与全注意力持平。
多模态侧,M3 从第 0 步就做混合模态训练,并重建了数据管线以吃下「文本与图像自然交错」的 interleaved 数据,把训练数据规模推到 100 万亿 token 量级。
最该被记住、却最容易被新闻略过的一句话在文末:「未来 10 天内,我们将发布技术报告并开源相应的模型权重。」换句话说——发布当天,M3 的权重并没有开放。这一点下面单独说。
技术要点
MSA 值得多说两句,因为它是整篇里唯一一个「机制 → 数字」闭环讲清楚的部分。全注意力的硬伤是算力随序列长度平方增长,1M 上下文下这笔账谁都算不起。稀疏注意力的通用思路是先做一道预筛选,只对相关的 KV 块算全注意力。MSA 的差异化卖点有两条:一是分块更精细,号称在同样稀疏度下保住更高的有效覆盖;二是把工程做到了算子层——「KV 外层 gather Q」让访存连续、每块只读一次,于是理论上的算力节省能真正落到墙钟时间上,而不是停在 paper 里。
落地数字就是前面那组:1M 上下文每 token 算力是上一代的 1/20,prefill >9×、decode >15×。这组数字若经得起第三方复现,意义比 SWE-Bench 那一行大得多——它直接改写长上下文推理的单位成本。需要存疑的是:这些都是厂商自测、且发布时权重未开放,外部无法验证;MSA 与全注意力「绝大多数能力持平」中的「绝大多数」具体漏在哪类任务上,官方没给。
另一个被低估的细节是 API 定价分段:≤512K 输入按标准价、>512K 走更贵的长上下文价。这等于厂商自己承认——512K 以上才是 MSA 真正要省钱的战场,也是大多数对话和编码场景够不到的区间。Builder 据此就能判断:M3 的成本优势对你是否成立,取决于你的上下文是否真的常态化越过 512K。
为何重要
把 MSA 放进行业语境,它的位置很清楚:这是中国实验室在「长上下文的成本曲线」上又一次正面下注。DeepSeek V4 此前用 1.6T MoE 加推理侧工程,把开放权重的单位 token 成本做到领先;M3 走的是另一条路——不在「参数效率」上做文章,而在「上下文这一维度的算力效率」上做。两者合起来传递同一个信号:开放阵营越来越懂得不去硬刚能力上限,而去抢「同样能力下谁更便宜」的位置。
对整个长上下文 agent 赛道,这意味着「百万上下文」可能从一个 demo 友好的营销词,慢慢变成一个能进生产预算的工程选项。M3 自己给的两个内部案例颇能说明 MSA 想服务的形态:让 M3 独立复现一篇 ICLR 2025 杰出论文,自主跑了近 12 小时、产出 18 次提交和 23 张实验图;让它优化 Hopper 上的 FP8 GEMM 算子,连续跑约 24 小时、做了 147 次基准提交和 1959 次工具调用,把硬件峰值利用率从 7.6% 提到 71.3%、提速 9.4 倍。这类「重复工具调用堆出又长又密的上下文」的长周期任务,正是 MSA 的长上下文注意力分配机制声称要吃下的场景。
但要给热度泼盆冷水:同样在那个 PostTrainBench 自主炼模型的任务上,M3 拿了 0.37,低于 Opus 4.7 的 0.42 和 GPT-5.5 的 0.39。开放权重在「最难的开放式 agent 任务」上,离闭源头部还有可量的差距。M3 的卖点从来不该是「能力反超」,而是「在能用的能力档位上,把长上下文做便宜」。
对建设者的影响
如果你在做长上下文 agent——代码库全量理解、超长文档解析、多轮长周期协作——M3 值得进你的候选清单,但要带着三个判断去评估,而不是冲着 59% 去:
第一,成本优势是否对你成立,取决于你的上下文是否常越过 512K。≤512K 走标准价的区间里,MSA 省下的算力未必转化成对你可感的价格差;真正受益的是全仓代码理解、超长文档这类高负载场景。
第二,「开放权重」这四个字,发布当天是空头支票。截至 6 月初,Hugging Face 上 MiniMax 官方组织置顶的最新权重仍是 M2.7,M3 的权重链接还没上架;接入只能走 API、Token Plan 或 MiniMax Code。官方承诺「10 天内开源」,但「声量先于权重落地」本身就是要警惕的信号——在权重真正可下载、可自托管之前,别把任何「自托管 M3 省成本」的方案写进规划。要复现那条诱人的成本曲线,你得先等到能把权重和 MSA 算子拿到自己手里的那天。
第三,配套深度绑定 MiniMax Code。官方明说 MiniMax Code 是「专门为 M3 设计、与 M3 一起训练」的首选 agent,还支持 computer use。这是优势也是绑定——M3 最满血的形态,可能恰恰最难脱离它的工具链复制。
务实的做法:先用 API 在你的真实长上下文工作流里跑一轮,量自己的端到端成本和质量,再决定是否等开源。把 MSA 的成本叙事当成「待验证的假设」,而不是已经到手的结论。
对研究者的影响
MSA 对做长上下文与注意力机制的研究者,值不值得追,几乎完全押在那份「10 天内」的技术报告上。当前这篇博客只给了机制的口径和漂亮的加速比,没有给:MSA 与全注意力持平之外、具体在哪类任务上掉点;分块策略的关键超参;以及与 DSA、MoBA 在统一设置下的可比对照。这些都得等报告和权重。在那之前,MSA 是一个「数字很诱人、但无法独立验证」的声明。
值得记下的一个方向性观察:M3 把「上下文」明确当成一个可以独立 scale 的维度来训练和宣传,而不只是把窗口拉长。如果报告能把「有效上下文覆盖」这个概念量化清楚,它对怎么评估长上下文模型本身,可能比 M3 这一个模型更有长期价值。
社区信号
外部反应温和但克制。TechTimes 的标题直接点穿——「前沿声明,未经验证的基准」;一篇 Medium 的 agentic 工作流实测把结论概括为「结果很复杂」。这与本文的判断一致:分数是厂商自测,机制听起来扎实,但在权重和技术报告落地前,谁都没法独立复现。社区目前给 M3 的,是「有意思,等开源再说」的态度,而不是欢呼。
该忽略什么
要主动杀掉的一条误读:「SWE-Bench Pro 59% 超过 GPT-5.5,所以 M3 编码能力反超闭源头部」。 这话至少错在三处。其一,这 59% 是 MiniMax 用自家基础设施、自家 scaffolding 测出来的厂商自测数,第三方尚未复现,媒体也已普遍标注「未经验证」。其二,原文写的是「超过 GPT-5.5 和 Gemini 3.1 Pro、逼近 Opus 4.7」——M3 自己没声称超过头部 Opus,是接近。其三,在更能反映自主能力的 PostTrainBench 上,M3(0.37)反而低于 Opus 4.7 和 GPT-5.5。把一个有利的单点跑分,放大成「全面反超」,是这类发布最常见的叙事陷阱。
同样该打折扣的还有「开放权重」这块招牌——在权重真正上架 Hugging Face、可下载可自托管之前,M3 在使用层面就是一个闭源 API 模型。真正的看点,自始至终是 MSA 那条成本曲线,以及那份还没发出来的技术报告能不能撑起它。