Qwen3.7-Max 发布：35小时自主优化芯片内核，Agent 专用模型首次超过 Claude Opus 4.6

分类: 大语言模型 |发布于: 5/23/2026 |最后更新: 5/23/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

5月23日，阿里 Qwen 团队发布 Qwen3.7-Max，一款专为 Agent 场景设计的闭源大语言模型。在实测中，这个模型自主运行了35个小时，为一块它从未见过的芯片优化内核代码，最终拿到10倍加速。更值得注意的是，在 Qwen 团队自建的 QwenClawBench 上，Qwen3.7-Max 的得分首次超过了 Anthropic 的 Claude Opus 4.6。

这是什么

Qwen3.7-Max 是 Qwen 系列的最新旗舰模型，仅通过阿里云 Model Studio API 提供，不开放权重。它的定位很明确：不是通用聊天模型，而是为 Agent 场景量身打造。

Qwen 团队列出了四个目标场景：

编程 Agent：从前端原型到复杂多文件项目
办公自动化：调用外部工具完成表格、文档、流程等任务
长时间自主运行：不需要人类介入，持续工作数十小时
跨框架一致性：在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架中表现稳定

接口方面，Qwen3.7-Max 兼容 OpenAI 和 Anthropic 的 API 格式，可以直接插入现有的 Agent 工具链，不需要改代码。

35小时自主实验：从零到10倍加速

最能说明 Qwen3.7-Max 能力的，是 Qwen 团队做的一个真实测试。

任务是：为开源推理软件 SGLang 优化一个硬件加速的 attention 内核。目标硬件是阿里自研半导体部门 T-Head 的 ZW-M890 加速器——关键是，模型在训练时从未见过这个芯片架构。

更极端的是起始条件：没有测量数据，没有硬件文档，没有样例代码，唯一的输入是已有的 Triton 语言参考实现。

35小时不间断运行后：

执行了 432 次内核测试，共 1158 次工具调用
自动编译、测量、修改代码，遇到编译错误自行排查，追踪性能瓶颈
最终结果：平均 10 倍加速，超过参考实现

同一任务下，其他模型的表现差距明显：

| 模型 | 加速倍数 |

|------|---------|

| Qwen3.7-Max | 10x |

| GLM 5.1 | 7.3x |

| Kimi K2.6 | 5x |

| DeepSeek V4 Pro | 3.3x |

| Qwen3.6-Plus | 1.1x |

表现差的模型在连续五轮无工具调用后会自行结束会话，算是"知道什么时候该放弃"。

标准化基准上的表现

在 KernelBench L3 基准上，Qwen3.7-Max 能在 96% 的情况下产出加速内核，仅次于 Claude Opus 4.6 的 98%。

在 Qwen 团队自建的 QwenClawBench 上，Qwen3.7-Max 超过了 Claude Opus 4.6。需要注意的是，QwenClawBench 是 Qwen 自建的评测集，第三方独立评测尚未出现。

跨框架一致性是另一个亮点。Qwen3.6-Plus 在不同 Agent 框架（OpenClaw、Claude Code、Hermes）间表现波动较大，而 Qwen3.7-Max 在三个框架上几乎打平——这意味着你换一个 Agent 工具，模型不会突然变差。

训练方法的核心思路

Qwen3.7-Max 的训练方法延续并改进了 Qwen3.5 开始的"三分离"设计：

每个训练任务拆成三个独立组件——任务本身、工具环境、验证器。同一个任务在不同工具环境中练习，用不同验证器检查结果。

这不是简单的数据增强。目的是迫使模型学到跨环境泛化的策略，而不是记住某个特定框架的捷径。就像一个人如果只在自家厨房做饭，可能永远学不会适应陌生灶台——但如果你让他每天换一个厨房，他必须学会通用的烹饪方法。

闭源路线的变化

一个值得注意的趋势：Qwen 系列从开源走向了闭源。

Qwen3.5-397B-A17B（2026年2月发布）是最后一个开放权重的旗舰模型。从 Qwen3.6-Plus 开始，包括这次的 Qwen3.7-Max，都只提供 API 访问，不开放权重。

这对开发者的影响很直接：无法本地部署，只能走阿里云的 API。对于需要私有化部署或定制微调的团队，这是一个限制。但对于主要用 API 调用的用户来说，接口兼容性降低了迁移成本。

对谁有用

用 Agent 做复杂编程任务的人：35小时自主运行的案例说明，这个模型适合"交给它一个难题，然后去睡觉"的工作模式
跨 Agent 框架部署的团队：不同框架间表现一致，意味着换工具不用重新适配
需要长时间自主运行场景的人：办公自动化、数据处理流水线等

需要冷静看的地方

实测数据来自 Qwen 团队自身，35小时实验和 QwenClawBench 都没有第三方独立复现
闭源意味着社区无法验证训练数据和方法的具体细节
四足机器人演示仅为展示，不代表模型已具备通用机器人控制能力
QwenClawBench 是自建评测集，排位优势需要外部验证
API 定价尚未公布，对成本敏感的用户需要等进一步信息

基于 Qwen 官方博客及 The Decoder 等媒体转述整理。

参考来源

https://the-decoder.com/alibabas-latest-ai-model-ran-autonomously-for-35-hours-to-optimize-code-for-its-own-custom-chip/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。