2026-06-10

MiniMax M3：真看点是稀疏注意力把百万上下文从「能跑」做到「用得起」，不是榜单 59%

M3 的真信号是 MSA 把 1M 上下文的每 token 算力压到上一代的 1/20、解码提速 15 倍——长上下文 agent 的成本曲线第一次被一家中国实验室往下按。但发布日权重并未开放，「过 10 天再开源」是诚意的试金石。

概述

MiniMax 在 2026-06-01 发布 M3，标题把三件事捆在一起：前沿编码、1M 上下文、原生多模态，并称这是「第一个也是唯一一个同时具备这三者的开放权重模型」。媒体顺势把 SWE-Bench Pro 的 59.0% 拎成头条——超过 GPT-5.5、Gemini 3.1 Pro，逼近 Opus 4.7。

但把跑分当成 M3 的看点，是看错了重点。这次真正值得记住的，是藏在架构层的一个数字：在 100 万 token 的上下文长度下，M3 每个 token 的计算量只有上一代的 1/20，预填充（prefill）提速 9 倍以上、解码（decode）提速 15 倍以上。撑起这个数字的，是 MiniMax 自研的稀疏注意力架构 MSA（MiniMax Sparse Attention）。

这才是 builder 该盯的地方。长上下文 agent 一直不缺「能跑到 1M」的模型，缺的是「跑 1M 还用得起」的模型——全注意力的算力随上下文长度平方膨胀，把百万级上下文的每一轮 agent 循环都变成一笔不划算的账。M3 想回答的，是这条成本曲线能不能被按下去。所以本文要拆的第一层噪音，就是「59% 超 GPT-5.5」这种榜单叙事；它不假，但它不是信号。下面逐层分开看。

发生了什么

MiniMax 同日开放了三条接入路径：MiniMax Code（与 M3 一起训练、专门配套的 agent 产品）、Token Plan 订阅、以及 M3 API。能力侧官方给出的成绩单：SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%；多模态侧 OmniDocBench 超过 Gemini 3.1 Pro、SVG-Bench 超过 Opus 4.7。

架构侧，MSA 是核心叙事。官方的说法是：稀疏注意力普遍靠加一个「预筛选」阶段来回避平方复杂度，而 MSA 相比 DSA、MoBA 这类方法能把 KV 更精细地切成块、拿到更高的「有效上下文覆盖」；在算子层它用了「KV 外层 gather Q」的做法——以 KV 块为外循环、把命中它的 query 聚到一起，每块只读一次、内存访问连续，算术强度比常见实现高，实测比开源的 Flash-Sparse-Attention 和 flash-moba 快 4 倍以上。多次消融里，MSA 在绝大多数能力上与全注意力持平。

多模态侧，M3 从第 0 步就做混合模态训练，并重建了数据管线以吃下「文本与图像自然交错」的 interleaved 数据，把训练数据规模推到 100 万亿 token 量级。

最该被记住、却最容易被新闻略过的一句话在文末：「未来 10 天内，我们将发布技术报告并开源相应的模型权重。」换句话说——发布当天，M3 的权重并没有开放。这一点下面单独说。

技术要点

MSA 值得多说两句，因为它是整篇里唯一一个「机制 → 数字」闭环讲清楚的部分。全注意力的硬伤是算力随序列长度平方增长，1M 上下文下这笔账谁都算不起。稀疏注意力的通用思路是先做一道预筛选，只对相关的 KV 块算全注意力。MSA 的差异化卖点有两条：一是分块更精细，号称在同样稀疏度下保住更高的有效覆盖；二是把工程做到了算子层——「KV 外层 gather Q」让访存连续、每块只读一次，于是理论上的算力节省能真正落到墙钟时间上，而不是停在 paper 里。

落地数字就是前面那组：1M 上下文每 token 算力是上一代的 1/20，prefill >9×、decode >15×。这组数字若经得起第三方复现，意义比 SWE-Bench 那一行大得多——它直接改写长上下文推理的单位成本。需要存疑的是：这些都是厂商自测、且发布时权重未开放，外部无法验证；MSA 与全注意力「绝大多数能力持平」中的「绝大多数」具体漏在哪类任务上，官方没给。

另一个被低估的细节是 API 定价分段：≤512K 输入按标准价、>512K 走更贵的长上下文价。这等于厂商自己承认——512K 以上才是 MSA 真正要省钱的战场，也是大多数对话和编码场景够不到的区间。Builder 据此就能判断：M3 的成本优势对你是否成立，取决于你的上下文是否真的常态化越过 512K。

为何重要

把 MSA 放进行业语境，它的位置很清楚：这是中国实验室在「长上下文的成本曲线」上又一次正面下注。DeepSeek V4 此前用 1.6T MoE 加推理侧工程，把开放权重的单位 token 成本做到领先；M3 走的是另一条路——不在「参数效率」上做文章，而在「上下文这一维度的算力效率」上做。两者合起来传递同一个信号：开放阵营越来越懂得不去硬刚能力上限，而去抢「同样能力下谁更便宜」的位置。

对整个长上下文 agent 赛道，这意味着「百万上下文」可能从一个 demo 友好的营销词，慢慢变成一个能进生产预算的工程选项。M3 自己给的两个内部案例颇能说明 MSA 想服务的形态：让 M3 独立复现一篇 ICLR 2025 杰出论文，自主跑了近 12 小时、产出 18 次提交和 23 张实验图；让它优化 Hopper 上的 FP8 GEMM 算子，连续跑约 24 小时、做了 147 次基准提交和 1959 次工具调用，把硬件峰值利用率从 7.6% 提到 71.3%、提速 9.4 倍。这类「重复工具调用堆出又长又密的上下文」的长周期任务，正是 MSA 的长上下文注意力分配机制声称要吃下的场景。

但要给热度泼盆冷水：同样在那个 PostTrainBench 自主炼模型的任务上，M3 拿了 0.37，低于 Opus 4.7 的 0.42 和 GPT-5.5 的 0.39。开放权重在「最难的开放式 agent 任务」上，离闭源头部还有可量的差距。M3 的卖点从来不该是「能力反超」，而是「在能用的能力档位上，把长上下文做便宜」。

对建设者的影响

如果你在做长上下文 agent——代码库全量理解、超长文档解析、多轮长周期协作——M3 值得进你的候选清单，但要带着三个判断去评估，而不是冲着 59% 去：

第一，成本优势是否对你成立，取决于你的上下文是否常越过 512K。≤512K 走标准价的区间里，MSA 省下的算力未必转化成对你可感的价格差；真正受益的是全仓代码理解、超长文档这类高负载场景。

第二，「开放权重」这四个字，发布当天是空头支票。截至 6 月初，Hugging Face 上 MiniMax 官方组织置顶的最新权重仍是 M2.7，M3 的权重链接还没上架；接入只能走 API、Token Plan 或 MiniMax Code。官方承诺「10 天内开源」，但「声量先于权重落地」本身就是要警惕的信号——在权重真正可下载、可自托管之前，别把任何「自托管 M3 省成本」的方案写进规划。要复现那条诱人的成本曲线，你得先等到能把权重和 MSA 算子拿到自己手里的那天。

第三，配套深度绑定 MiniMax Code。官方明说 MiniMax Code 是「专门为 M3 设计、与 M3 一起训练」的首选 agent，还支持 computer use。这是优势也是绑定——M3 最满血的形态，可能恰恰最难脱离它的工具链复制。

务实的做法：先用 API 在你的真实长上下文工作流里跑一轮，量自己的端到端成本和质量，再决定是否等开源。把 MSA 的成本叙事当成「待验证的假设」，而不是已经到手的结论。

对研究者的影响

MSA 对做长上下文与注意力机制的研究者，值不值得追，几乎完全押在那份「10 天内」的技术报告上。当前这篇博客只给了机制的口径和漂亮的加速比，没有给：MSA 与全注意力持平之外、具体在哪类任务上掉点；分块策略的关键超参；以及与 DSA、MoBA 在统一设置下的可比对照。这些都得等报告和权重。在那之前，MSA 是一个「数字很诱人、但无法独立验证」的声明。

值得记下的一个方向性观察：M3 把「上下文」明确当成一个可以独立 scale 的维度来训练和宣传，而不只是把窗口拉长。如果报告能把「有效上下文覆盖」这个概念量化清楚，它对怎么评估长上下文模型本身，可能比 M3 这一个模型更有长期价值。

社区信号

外部反应温和但克制。TechTimes 的标题直接点穿——「前沿声明，未经验证的基准」；一篇 Medium 的 agentic 工作流实测把结论概括为「结果很复杂」。这与本文的判断一致：分数是厂商自测，机制听起来扎实，但在权重和技术报告落地前，谁都没法独立复现。社区目前给 M3 的，是「有意思，等开源再说」的态度，而不是欢呼。

该忽略什么

要主动杀掉的一条误读：「SWE-Bench Pro 59% 超过 GPT-5.5，所以 M3 编码能力反超闭源头部」。 这话至少错在三处。其一，这 59% 是 MiniMax 用自家基础设施、自家 scaffolding 测出来的厂商自测数，第三方尚未复现，媒体也已普遍标注「未经验证」。其二，原文写的是「超过 GPT-5.5 和 Gemini 3.1 Pro、逼近 Opus 4.7」——M3 自己没声称超过头部 Opus，是接近。其三，在更能反映自主能力的 PostTrainBench 上，M3（0.37）反而低于 Opus 4.7 和 GPT-5.5。把一个有利的单点跑分,放大成「全面反超」,是这类发布最常见的叙事陷阱。

同样该打折扣的还有「开放权重」这块招牌——在权重真正上架 Hugging Face、可下载可自托管之前，M3 在使用层面就是一个闭源 API 模型。真正的看点，自始至终是 MSA 那条成本曲线，以及那份还没发出来的技术报告能不能撑起它。

来源

MiniMax M3: Frontier Coding, 1M Context, Native Multimodality — All in One Model / official