智谱开源 GLM-5.1：754B MoE 模型登顶 SWE-Bench Pro 开源榜首

分类: 大语言模型 |发布于: 4/9/2026 |最后更新: 4/9/2026

智谱开源 GLM-5.1：754B MoE 模型登顶 SWE-Bench Pro 开源榜首，支持 200K 上下文与 8 小时自主任务

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

智谱（Zhipu AI）在 4 月初开源了新一代旗舰模型 GLM-5.1。这是目前开源模型中 SWE-Bench Pro 表现最好的模型，达到 58.4%，采用 754B 参数的 MoE 架构，MIT 协议完全开源。它最大的特点是专为"长时 agent 任务"设计——能连续工作 8 小时，在数百轮、数千次工具调用中保持高效，而不会像传统模型那样"耗尽招数"后性能衰退。

这是什么？

GLM-5.1 是智谱 GLM 系列的最新旗舰模型，于 2026 年 4 月在 HuggingFace 正式开源。核心规格：

架构：754B 参数 Mixture-of-Experts（MoE），推理效率较高
协议：MIT 开源协议，可商用
上下文：支持 200K tokens 长上下文
能力：SWE-Bench Pro 58.4%，开源模型第一

模型已在 HuggingFace 发布，智谱 API 平台同步上线。你可以直接下载权重本地部署，也可以通过 API 调用。

为什么重要？

编程能力：开源 SOTA

GLM-5.1 在 SWE-Bench Pro 上达到 58.4%，这是目前开源模型中的最高分。对比一下：

| 模型 | SWE-Bench Pro | 类型 |

|------|---------------|------|

| GLM-5.1 | 58.4% | 开源 |

| GLM-5 | 55.1% | 开源 |

| Qwen3.6-Plus | 56.6% | 开源 |

| Claude Opus 4.6 | 57.3% | 闭源 |

| GPT-5.4 | 57.7% | 闭源 |

开源模型首次在编程能力上逼近闭源 SOTA，差距仅 1 个百分点左右。对开发者来说，这意味着：不用依赖闭源 API，也能获得接近顶级的代码生成能力。

长时 Agent 任务：核心突破

这是 GLM-5.1 最具辨识度的能力。

传统模型有个通病：做复杂任务时，一开始表现不错，但很快就会"卡住"。给它们更多时间，表现也不会提升——因为它们已经在初始阶段用完了所有已知技巧。

GLM-5.1 的设计目标就是解决这个问题。官方描述：

> "GLM-5.1 is built to stay effective on agentic tasks over much longer horizons... The longer it runs, the better the result."

它的能力体现在：

8 小时自主任务：能持续工作而不性能衰退
数百轮迭代：不会在中途"放弃"或重复无效操作
数千次工具调用：适合复杂的多步骤任务

实际场景：修复一个涉及多个文件的 bug、重构大型代码库、长时间自动化运维任务。这些场景传统模型做到一半就容易"跑偏"或陷入循环，GLM-5.1 能更稳定地完成。

其他能力

数学推理

AIME 2026: 95.3%
HMMT Feb. 2026: 82.6%

长上下文

支持 200K tokens
能处理大型代码仓库、长文档分析

Agent 工具调用

MCP-Atlas: 71.8%
Tool-Decathlon: 40.7%
Vending Bench 2: $5,634（模拟任务收益）

对谁有用？

开发者

开源可本地部署，数据无需出境。SGLang、vLLM、Transformers、KTransformers 等主流推理框架都已支持。适合：

代码生成、重构、bug 修复
代码审查辅助
自动化脚本生成

企业用户

MIT 协议允许商用。本地部署保障数据隐私，适合对数据出境敏感的场景：

内部代码库分析
自动化运维
持续集成/持续部署辅助

研究者

开源权重、完整训练流程。可在自有数据上微调，或用于学术研究。

如何使用？

本地部署

主流推理框架已支持：

SGLang（v0.5.10+）：见官方 cookbook
vLLM（v0.19.0+）：见官方 recipes
Transformers（v0.5.3+）：见 transformers 文档
KTransformers（v0.5.3+）：见官方教程

注意事项：754B 参数的 MoE 模型，本地部署需要较强的 GPU 资源。

API 调用

智谱 API 平台已上线：

文档：https://docs.z.ai/guides/llm/glm-5.1
即将开放：chat.z.ai

HuggingFace 下载

直接下载权重：

https://huggingface.co/zai-org/GLM-5.1

局限性

硬件要求高：754B 参数，本地部署需要较强 GPU 资源
生态初期：刚开源，社区工具可能不如 Llama、Qwen 成熟
部分评测落后：如 HLE（31.0%）仍落后于 GPT-5.4（39.8%）等闭源模型

总结

GLM-5.1 的发布，标志着国产开源模型在"agent 工程能力"上有了实质性突破。它不是"又一个通用大模型"，而是专门为长时、复杂任务设计的 agent 优先模型。

对于需要开源、可本地部署、支持长上下文场景的开发者和企业，这是一个值得关注的进展。尤其是那些需要在代码库上做长时间自动化操作的场景——GLM-5.1 的"8 小时自主任务"能力，可能正是你需要的。

---

参考来源：

HuggingFace 模型页：https://huggingface.co/zai-org/GLM-5.1
智谱 API 文档：https://docs.z.ai/guides/llm/glm-5.1
技术报告：https://arxiv.org/abs/2602.15763

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。