MiniMax M3 发布:代码 Agent 能力达前沿,百万 token 上下文仅 GPT-5.5 成本 5%

分类: 各厂语言模型 |发布于: 6/5/2026 |最后更新: 6/5/2026
draft.md — MiniMax M3 发布

draft.md — MiniMax M3 发布

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

MiniMax M3 发布:代码 Agent 能力达前沿,百万 token 上下文仅 GPT-5.5 成本 5%

MiniMax 于近日发布了第三代大语言模型 M3。这是目前首个同时具备前沿级代码与 Agent 能力、百万 token 超长上下文、以及原生多模态的开源权重大模型。API 成本仅为 GPT-5.5 的 5-10%,benchmark 成绩在代码和自主 Agent 任务上已超越 GPT-5.5 和 Gemini 3.1 Pro。MiniMax 还宣布将在未来 10 天内开源模型权重。

---

一个困扰行业很久的问题

做大模型的人长期面临一个两难选择:要么用贵的闭源模型(效果好但烧钱),要么用便宜的开源模型(省预算但能力不够,尤其在复杂代码和长程推理任务上容易掉链子)。

MiniMax M3 想打破这个局面。它的核心卖点是:把前沿级能力(代码、Agent、多模态、长上下文)和极低价格(API 成本是 GPT-5.5 的 5-10%)做到一起,而且还会开源。

---

MSA 架构:让百万 token 上下文真正可用

实现这一切的关键技术是 MiniMax 自研的 MSA(MIniMax Sparse Attention,稀疏注意力机制)

标准 Transformer 的注意力机制是"全注意力",计算量随上下文长度平方增长——输入 100 万 token,计算量爆炸,成本也爆炸。MSA 的思路是加一个预过滤层,只让真正相关的 Key-Value 块参与计算,把复杂度从 O(N²) 降到接近 O(N)。

MiniMax 还在算子层面做了深度优化,用"KV outer gather Q"的方式让每个数据块只读一次、内存访问连续。在 100 万 token 上下文长度下,M3 每 token 算力降至上一代的 1/20,预填充阶段提速 9 倍,解码阶段提速 15 倍。对比开源方案 Flash-Sparse-Attention 和 flash-moba,也快了 4 倍以上。

这使得 100 万 token 超长上下文在实际使用中变得经济可行,不再是理论数字。

---

代码与 Agent 能力:超越 GPT-5.5 和 Gemini 3.1 Pro

M3 在多个权威基准测试中的表现:

| 基准测试 | M3 得分 | 对比 |

|---|---|---|

| SWE-Bench Pro(自主编程) | 59.0% | 超越 GPT-5.5 和 Gemini 3.1 Pro |

| Terminal-Bench 2.1(终端操作) | 66.0% | 接近 Claude Opus 4.7(66.1%) |

| MCP Atlas(Agent 工具调用) | 74.2% | — |

| OSWorld-Verified(GUI 自动化) | 70.0% | — |

| BrowseComp(浏览器自主操作) | 83.5 | 超越 Claude Opus 4.7(79.3) |

MiniMax 还专门指出了一个趋势:真实开发不是单轮对话,而是多轮协作——用户会不断澄清需求、调整方案、跨上下文切换任务、基于中间结果迭代。为此,MiniMax 构建了一套"交互式用户模拟框架",在训练和评估阶段模拟真实开发者的协作行为,让模型真正适应生产环境中的复杂项目迭代。

不过也要看到差距:与上周刚发布的 Claude Opus 4.8(最新旗舰)相比,M3 在 SWE-Bench Pro(69.2% vs 59.0%)和 Terminal-Bench 2.1(74.6% vs 66.0%)上仍有明显差距。MiniMax 对标的主要是 GPT-5.5 和 Gemini 3.1 Pro,而非当前最强模型。

---

原生长上下文实际任务:12 小时独立复现论文

MiniMax 在官方博客中分享了一个具体任务案例:让 M3 独立复现一篇 ICLR 2025 杰出论文(Learning Dynamics of LLM Finetuning)

这个任务需要三种能力同时配合:超长上下文(整篇论文 + 代码 + 实验日志一起处理)、原生多模态(理解论文中的曲线图和数据)、强代码和 Agent 能力(独立写代码、做实验)。结果是:M3 自主运行近 12 小时,提交 18 个 commit、生成 23 张实验图,最终成功复现了论文核心实验结果。

另一个例子是 CUDA Kernel 优化:FP8 矩阵乘法是 GPU 推理中计算最密集的部分,M3 自主完成优化,并将结果开源到 GitHub。

---

定价:比 GPT-5.5 便宜 10-20 倍,限时特惠更便宜

M3 当前 API 定价(对比主流模型):

| 模型 | 输入 $ / M token | 输出 $ / M token | 总成本 |

|---|---|---|---|

| MiniMax M3(限时) | $0.30 | $1.20 | $1.50 |

| MiniMax M3(正式) | $0.60 | $2.40 | $3.00 |

| DeepSeek-V4-Flash | $0.14 | $0.28 | $0.42 |

| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $1.75 |

| GPT-5.4 | $2.50 | $15.00 | $17.50 |

| GPT-5.5 | $5.00 | $30.00 | $35.00 |

| Claude Opus 4.8 | $5.00 | $25.00 | $30.00 |

即便是正式定价,M3 的成本也仅为 GPT-5.5 的 8-20%。限时特惠价($0.30/$1.20)更便宜,但仅限一周。

此外,MiniMax 宣布将在 10 天内开源模型权重(含 open weights),允许企业自由下载和定制,无需通过 API。

---

局限与展望

  1. 还不是正式开源:当前只有 API 访问,权重 10 天后才开放
  2. 与最强模型有差距:Claude Opus 4.8 的 SWE-Bench Pro 达到 69.2%,M3 为 59.0%,仍有提升空间
  3. benchmark 来源单一:目前 benchmark 数据均来自 MiniMax 官方披露,第三方独立验证尚待观察
  4. 生产环境未知:API 刚上线,大规模用户实际使用效果有待验证

---

谁适合现在就用 M3

  • 需要强代码能力的开发者:API 成本低,效果超越 GPT-5.5,尤其适合需要自动化脚本、终端操作、代码生成的场景
  • 关注长上下文的应用:处理整本技术文档、长篇合同、完整代码库分析,100 万 token 上下文实用性强
  • 做 AI 应用集成的团队:原生多模态 + Agent 工具调用能力,适合构建复杂 AI 工作流
  • 成本敏感型企业:API 成本是 GPT-5.5 的十分之一,在预算有限的情况下是值得考虑的选择

---

参考来源

  • MiniMax 官方博客:https://www.minimax.io/blog/minimax-m3
  • VentureBeat 报道:https://venturebeat.com/technology/minimax-m3-debuts-eclipsing-gpt-5-5-and-gemini-3-1-pro-on-key-benchmark-performance-for-just-5-10-of-the-cost

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。