MiniMax M3 发布：代码 Agent 能力达前沿，百万 token 上下文仅 GPT-5.5 成本 5%

分类: 各厂语言模型 |发布于: 6/5/2026 |最后更新: 6/5/2026

draft.md — MiniMax M3 发布

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

MiniMax M3 发布：代码 Agent 能力达前沿，百万 token 上下文仅 GPT-5.5 成本 5%

MiniMax 于近日发布了第三代大语言模型 M3。这是目前首个同时具备前沿级代码与 Agent 能力、百万 token 超长上下文、以及原生多模态的开源权重大模型。API 成本仅为 GPT-5.5 的 5-10%，benchmark 成绩在代码和自主 Agent 任务上已超越 GPT-5.5 和 Gemini 3.1 Pro。MiniMax 还宣布将在未来 10 天内开源模型权重。

---

一个困扰行业很久的问题

做大模型的人长期面临一个两难选择：要么用贵的闭源模型（效果好但烧钱），要么用便宜的开源模型（省预算但能力不够，尤其在复杂代码和长程推理任务上容易掉链子）。

MiniMax M3 想打破这个局面。它的核心卖点是：把前沿级能力（代码、Agent、多模态、长上下文）和极低价格（API 成本是 GPT-5.5 的 5-10%）做到一起，而且还会开源。

---

MSA 架构：让百万 token 上下文真正可用

实现这一切的关键技术是 MiniMax 自研的 MSA（MIniMax Sparse Attention，稀疏注意力机制）。

标准 Transformer 的注意力机制是"全注意力"，计算量随上下文长度平方增长——输入 100 万 token，计算量爆炸，成本也爆炸。MSA 的思路是加一个预过滤层，只让真正相关的 Key-Value 块参与计算，把复杂度从 O(N²) 降到接近 O(N)。

MiniMax 还在算子层面做了深度优化，用"KV outer gather Q"的方式让每个数据块只读一次、内存访问连续。在 100 万 token 上下文长度下，M3 每 token 算力降至上一代的 1/20，预填充阶段提速 9 倍，解码阶段提速 15 倍。对比开源方案 Flash-Sparse-Attention 和 flash-moba，也快了 4 倍以上。

这使得 100 万 token 超长上下文在实际使用中变得经济可行，不再是理论数字。

---

代码与 Agent 能力：超越 GPT-5.5 和 Gemini 3.1 Pro

M3 在多个权威基准测试中的表现：

| 基准测试 | M3 得分 | 对比 |

|---|---|---|

| SWE-Bench Pro（自主编程） | 59.0% | 超越 GPT-5.5 和 Gemini 3.1 Pro |

| Terminal-Bench 2.1（终端操作） | 66.0% | 接近 Claude Opus 4.7（66.1%） |

| MCP Atlas（Agent 工具调用） | 74.2% | — |

| OSWorld-Verified（GUI 自动化） | 70.0% | — |

| BrowseComp（浏览器自主操作） | 83.5 | 超越 Claude Opus 4.7（79.3） |

MiniMax 还专门指出了一个趋势：真实开发不是单轮对话，而是多轮协作——用户会不断澄清需求、调整方案、跨上下文切换任务、基于中间结果迭代。为此，MiniMax 构建了一套"交互式用户模拟框架"，在训练和评估阶段模拟真实开发者的协作行为，让模型真正适应生产环境中的复杂项目迭代。

不过也要看到差距：与上周刚发布的 Claude Opus 4.8（最新旗舰）相比，M3 在 SWE-Bench Pro（69.2% vs 59.0%）和 Terminal-Bench 2.1（74.6% vs 66.0%）上仍有明显差距。MiniMax 对标的主要是 GPT-5.5 和 Gemini 3.1 Pro，而非当前最强模型。

---

原生长上下文实际任务：12 小时独立复现论文

MiniMax 在官方博客中分享了一个具体任务案例：让 M3 独立复现一篇 ICLR 2025 杰出论文（Learning Dynamics of LLM Finetuning）。

这个任务需要三种能力同时配合：超长上下文（整篇论文 + 代码 + 实验日志一起处理）、原生多模态（理解论文中的曲线图和数据）、强代码和 Agent 能力（独立写代码、做实验）。结果是：M3 自主运行近 12 小时，提交 18 个 commit、生成 23 张实验图，最终成功复现了论文核心实验结果。

另一个例子是 CUDA Kernel 优化：FP8 矩阵乘法是 GPU 推理中计算最密集的部分，M3 自主完成优化，并将结果开源到 GitHub。

---

定价：比 GPT-5.5 便宜 10-20 倍，限时特惠更便宜

M3 当前 API 定价（对比主流模型）：

| 模型 | 输入 $ / M token | 输出 $ / M token | 总成本 |

|---|---|---|---|

| MiniMax M3（限时） | $0.30 | $1.20 | $1.50 |

| MiniMax M3（正式） | $0.60 | $2.40 | $3.00 |

| DeepSeek-V4-Flash | $0.14 | $0.28 | $0.42 |

| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $1.75 |

| GPT-5.4 | $2.50 | $15.00 | $17.50 |

| GPT-5.5 | $5.00 | $30.00 | $35.00 |

| Claude Opus 4.8 | $5.00 | $25.00 | $30.00 |

即便是正式定价，M3 的成本也仅为 GPT-5.5 的 8-20%。限时特惠价（$0.30/$1.20）更便宜，但仅限一周。

此外，MiniMax 宣布将在 10 天内开源模型权重（含 open weights），允许企业自由下载和定制，无需通过 API。

---

局限与展望

还不是正式开源：当前只有 API 访问，权重 10 天后才开放
与最强模型有差距：Claude Opus 4.8 的 SWE-Bench Pro 达到 69.2%，M3 为 59.0%，仍有提升空间
benchmark 来源单一：目前 benchmark 数据均来自 MiniMax 官方披露，第三方独立验证尚待观察
生产环境未知：API 刚上线，大规模用户实际使用效果有待验证

---

谁适合现在就用 M3

需要强代码能力的开发者：API 成本低，效果超越 GPT-5.5，尤其适合需要自动化脚本、终端操作、代码生成的场景
关注长上下文的应用：处理整本技术文档、长篇合同、完整代码库分析，100 万 token 上下文实用性强
做 AI 应用集成的团队：原生多模态 + Agent 工具调用能力，适合构建复杂 AI 工作流
成本敏感型企业：API 成本是 GPT-5.5 的十分之一，在预算有限的情况下是值得考虑的选择

---

参考来源

MiniMax 官方博客：https://www.minimax.io/blog/minimax-m3
VentureBeat 报道：https://venturebeat.com/technology/minimax-m3-debuts-eclipsing-gpt-5-5-and-gemini-3-1-pro-on-key-benchmark-performance-for-just-5-10-of-the-cost

参考来源

https://www.minimax.io/blog/minimax-m3

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。