Qwen3.7-Max 发布:35小时自主优化芯片内核,Agent 专用模型首次超过 Claude Opus 4.6
Qwen3.7-Max 发布:35小时自主优化芯片内核,Agent 专用模型首次超过 Claude Opus 4.6
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
5月23日,阿里 Qwen 团队发布 Qwen3.7-Max,一款专为 Agent 场景设计的闭源大语言模型。在实测中,这个模型自主运行了35个小时,为一块它从未见过的芯片优化内核代码,最终拿到10倍加速。更值得注意的是,在 Qwen 团队自建的 QwenClawBench 上,Qwen3.7-Max 的得分首次超过了 Anthropic 的 Claude Opus 4.6。
这是什么
Qwen3.7-Max 是 Qwen 系列的最新旗舰模型,仅通过阿里云 Model Studio API 提供,不开放权重。它的定位很明确:不是通用聊天模型,而是为 Agent 场景量身打造。
Qwen 团队列出了四个目标场景:
- 编程 Agent:从前端原型到复杂多文件项目
- 办公自动化:调用外部工具完成表格、文档、流程等任务
- 长时间自主运行:不需要人类介入,持续工作数十小时
- 跨框架一致性:在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架中表现稳定
接口方面,Qwen3.7-Max 兼容 OpenAI 和 Anthropic 的 API 格式,可以直接插入现有的 Agent 工具链,不需要改代码。
35小时自主实验:从零到10倍加速
最能说明 Qwen3.7-Max 能力的,是 Qwen 团队做的一个真实测试。
任务是:为开源推理软件 SGLang 优化一个硬件加速的 attention 内核。目标硬件是阿里自研半导体部门 T-Head 的 ZW-M890 加速器——关键是,模型在训练时从未见过这个芯片架构。
更极端的是起始条件:没有测量数据,没有硬件文档,没有样例代码,唯一的输入是已有的 Triton 语言参考实现。
35小时不间断运行后:
- 执行了 432 次内核测试,共 1158 次工具调用
- 自动编译、测量、修改代码,遇到编译错误自行排查,追踪性能瓶颈
- 最终结果:平均 10 倍加速,超过参考实现
同一任务下,其他模型的表现差距明显:
| 模型 | 加速倍数 |
|------|---------|
| Qwen3.7-Max | 10x |
| GLM 5.1 | 7.3x |
| Kimi K2.6 | 5x |
| DeepSeek V4 Pro | 3.3x |
| Qwen3.6-Plus | 1.1x |
表现差的模型在连续五轮无工具调用后会自行结束会话,算是"知道什么时候该放弃"。
标准化基准上的表现
在 KernelBench L3 基准上,Qwen3.7-Max 能在 96% 的情况下产出加速内核,仅次于 Claude Opus 4.6 的 98%。
在 Qwen 团队自建的 QwenClawBench 上,Qwen3.7-Max 超过了 Claude Opus 4.6。需要注意的是,QwenClawBench 是 Qwen 自建的评测集,第三方独立评测尚未出现。
跨框架一致性是另一个亮点。Qwen3.6-Plus 在不同 Agent 框架(OpenClaw、Claude Code、Hermes)间表现波动较大,而 Qwen3.7-Max 在三个框架上几乎打平——这意味着你换一个 Agent 工具,模型不会突然变差。
训练方法的核心思路
Qwen3.7-Max 的训练方法延续并改进了 Qwen3.5 开始的"三分离"设计:
每个训练任务拆成三个独立组件——任务本身、工具环境、验证器。同一个任务在不同工具环境中练习,用不同验证器检查结果。
这不是简单的数据增强。目的是迫使模型学到跨环境泛化的策略,而不是记住某个特定框架的捷径。就像一个人如果只在自家厨房做饭,可能永远学不会适应陌生灶台——但如果你让他每天换一个厨房,他必须学会通用的烹饪方法。
闭源路线的变化
一个值得注意的趋势:Qwen 系列从开源走向了闭源。
Qwen3.5-397B-A17B(2026年2月发布)是最后一个开放权重的旗舰模型。从 Qwen3.6-Plus 开始,包括这次的 Qwen3.7-Max,都只提供 API 访问,不开放权重。
这对开发者的影响很直接:无法本地部署,只能走阿里云的 API。对于需要私有化部署或定制微调的团队,这是一个限制。但对于主要用 API 调用的用户来说,接口兼容性降低了迁移成本。
对谁有用
- 用 Agent 做复杂编程任务的人:35小时自主运行的案例说明,这个模型适合"交给它一个难题,然后去睡觉"的工作模式
- 跨 Agent 框架部署的团队:不同框架间表现一致,意味着换工具不用重新适配
- 需要长时间自主运行场景的人:办公自动化、数据处理流水线等
需要冷静看的地方
- 实测数据来自 Qwen 团队自身,35小时实验和 QwenClawBench 都没有第三方独立复现
- 闭源意味着社区无法验证训练数据和方法的具体细节
- 四足机器人演示仅为展示,不代表模型已具备通用机器人控制能力
- QwenClawBench 是自建评测集,排位优势需要外部验证
- API 定价尚未公布,对成本敏感的用户需要等进一步信息
基于 Qwen 官方博客及 The Decoder 等媒体转述整理。
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。