MiniMax M3 发布:代码 Agent 能力达前沿,百万 token 上下文仅 GPT-5.5 成本 5%
draft.md — MiniMax M3 发布
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
MiniMax M3 发布:代码 Agent 能力达前沿,百万 token 上下文仅 GPT-5.5 成本 5%
MiniMax 于近日发布了第三代大语言模型 M3。这是目前首个同时具备前沿级代码与 Agent 能力、百万 token 超长上下文、以及原生多模态的开源权重大模型。API 成本仅为 GPT-5.5 的 5-10%,benchmark 成绩在代码和自主 Agent 任务上已超越 GPT-5.5 和 Gemini 3.1 Pro。MiniMax 还宣布将在未来 10 天内开源模型权重。
---
一个困扰行业很久的问题
做大模型的人长期面临一个两难选择:要么用贵的闭源模型(效果好但烧钱),要么用便宜的开源模型(省预算但能力不够,尤其在复杂代码和长程推理任务上容易掉链子)。
MiniMax M3 想打破这个局面。它的核心卖点是:把前沿级能力(代码、Agent、多模态、长上下文)和极低价格(API 成本是 GPT-5.5 的 5-10%)做到一起,而且还会开源。
---
MSA 架构:让百万 token 上下文真正可用
实现这一切的关键技术是 MiniMax 自研的 MSA(MIniMax Sparse Attention,稀疏注意力机制)。
标准 Transformer 的注意力机制是"全注意力",计算量随上下文长度平方增长——输入 100 万 token,计算量爆炸,成本也爆炸。MSA 的思路是加一个预过滤层,只让真正相关的 Key-Value 块参与计算,把复杂度从 O(N²) 降到接近 O(N)。
MiniMax 还在算子层面做了深度优化,用"KV outer gather Q"的方式让每个数据块只读一次、内存访问连续。在 100 万 token 上下文长度下,M3 每 token 算力降至上一代的 1/20,预填充阶段提速 9 倍,解码阶段提速 15 倍。对比开源方案 Flash-Sparse-Attention 和 flash-moba,也快了 4 倍以上。
这使得 100 万 token 超长上下文在实际使用中变得经济可行,不再是理论数字。
---
代码与 Agent 能力:超越 GPT-5.5 和 Gemini 3.1 Pro
M3 在多个权威基准测试中的表现:
| 基准测试 | M3 得分 | 对比 |
|---|---|---|
| SWE-Bench Pro(自主编程) | 59.0% | 超越 GPT-5.5 和 Gemini 3.1 Pro |
| Terminal-Bench 2.1(终端操作) | 66.0% | 接近 Claude Opus 4.7(66.1%) |
| MCP Atlas(Agent 工具调用) | 74.2% | — |
| OSWorld-Verified(GUI 自动化) | 70.0% | — |
| BrowseComp(浏览器自主操作) | 83.5 | 超越 Claude Opus 4.7(79.3) |
MiniMax 还专门指出了一个趋势:真实开发不是单轮对话,而是多轮协作——用户会不断澄清需求、调整方案、跨上下文切换任务、基于中间结果迭代。为此,MiniMax 构建了一套"交互式用户模拟框架",在训练和评估阶段模拟真实开发者的协作行为,让模型真正适应生产环境中的复杂项目迭代。
不过也要看到差距:与上周刚发布的 Claude Opus 4.8(最新旗舰)相比,M3 在 SWE-Bench Pro(69.2% vs 59.0%)和 Terminal-Bench 2.1(74.6% vs 66.0%)上仍有明显差距。MiniMax 对标的主要是 GPT-5.5 和 Gemini 3.1 Pro,而非当前最强模型。
---
原生长上下文实际任务:12 小时独立复现论文
MiniMax 在官方博客中分享了一个具体任务案例:让 M3 独立复现一篇 ICLR 2025 杰出论文(Learning Dynamics of LLM Finetuning)。
这个任务需要三种能力同时配合:超长上下文(整篇论文 + 代码 + 实验日志一起处理)、原生多模态(理解论文中的曲线图和数据)、强代码和 Agent 能力(独立写代码、做实验)。结果是:M3 自主运行近 12 小时,提交 18 个 commit、生成 23 张实验图,最终成功复现了论文核心实验结果。
另一个例子是 CUDA Kernel 优化:FP8 矩阵乘法是 GPU 推理中计算最密集的部分,M3 自主完成优化,并将结果开源到 GitHub。
---
定价:比 GPT-5.5 便宜 10-20 倍,限时特惠更便宜
M3 当前 API 定价(对比主流模型):
| 模型 | 输入 $ / M token | 输出 $ / M token | 总成本 |
|---|---|---|---|
| MiniMax M3(限时) | $0.30 | $1.20 | $1.50 |
| MiniMax M3(正式) | $0.60 | $2.40 | $3.00 |
| DeepSeek-V4-Flash | $0.14 | $0.28 | $0.42 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $1.75 |
| GPT-5.4 | $2.50 | $15.00 | $17.50 |
| GPT-5.5 | $5.00 | $30.00 | $35.00 |
| Claude Opus 4.8 | $5.00 | $25.00 | $30.00 |
即便是正式定价,M3 的成本也仅为 GPT-5.5 的 8-20%。限时特惠价($0.30/$1.20)更便宜,但仅限一周。
此外,MiniMax 宣布将在 10 天内开源模型权重(含 open weights),允许企业自由下载和定制,无需通过 API。
---
局限与展望
- 还不是正式开源:当前只有 API 访问,权重 10 天后才开放
- 与最强模型有差距:Claude Opus 4.8 的 SWE-Bench Pro 达到 69.2%,M3 为 59.0%,仍有提升空间
- benchmark 来源单一:目前 benchmark 数据均来自 MiniMax 官方披露,第三方独立验证尚待观察
- 生产环境未知:API 刚上线,大规模用户实际使用效果有待验证
---
谁适合现在就用 M3
- 需要强代码能力的开发者:API 成本低,效果超越 GPT-5.5,尤其适合需要自动化脚本、终端操作、代码生成的场景
- 关注长上下文的应用:处理整本技术文档、长篇合同、完整代码库分析,100 万 token 上下文实用性强
- 做 AI 应用集成的团队:原生多模态 + Agent 工具调用能力,适合构建复杂 AI 工作流
- 成本敏感型企业:API 成本是 GPT-5.5 的十分之一,在预算有限的情况下是值得考虑的选择
---
参考来源
- MiniMax 官方博客:https://www.minimax.io/blog/minimax-m3
- VentureBeat 报道:https://venturebeat.com/technology/minimax-m3-debuts-eclipsing-gpt-5-5-and-gemini-3-1-pro-on-key-benchmark-performance-for-just-5-10-of-the-cost
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。