智谱开源 GLM-5.1:754B MoE 模型登顶 SWE-Bench Pro 开源榜首

分类: 大语言模型 |发布于: 4/9/2026 |最后更新: 4/9/2026
智谱开源 GLM-5.1:754B MoE 模型登顶 SWE-Bench Pro 开源榜首,支持 200K 上下文与 8 小时自主任务

智谱开源 GLM-5.1:754B MoE 模型登顶 SWE-Bench Pro 开源榜首,支持 200K 上下文与 8 小时自主任务

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

智谱(Zhipu AI)在 4 月初开源了新一代旗舰模型 GLM-5.1。这是目前开源模型中 SWE-Bench Pro 表现最好的模型,达到 58.4%,采用 754B 参数的 MoE 架构,MIT 协议完全开源。它最大的特点是专为"长时 agent 任务"设计——能连续工作 8 小时,在数百轮、数千次工具调用中保持高效,而不会像传统模型那样"耗尽招数"后性能衰退。

这是什么?

GLM-5.1 是智谱 GLM 系列的最新旗舰模型,于 2026 年 4 月在 HuggingFace 正式开源。核心规格:

  • 架构:754B 参数 Mixture-of-Experts(MoE),推理效率较高
  • 协议:MIT 开源协议,可商用
  • 上下文:支持 200K tokens 长上下文
  • 能力:SWE-Bench Pro 58.4%,开源模型第一

模型已在 HuggingFace 发布,智谱 API 平台同步上线。你可以直接下载权重本地部署,也可以通过 API 调用。

为什么重要?

编程能力:开源 SOTA

GLM-5.1 在 SWE-Bench Pro 上达到 58.4%,这是目前开源模型中的最高分。对比一下:

| 模型 | SWE-Bench Pro | 类型 |

|------|---------------|------|

| GLM-5.1 | 58.4% | 开源 |

| GLM-5 | 55.1% | 开源 |

| Qwen3.6-Plus | 56.6% | 开源 |

| Claude Opus 4.6 | 57.3% | 闭源 |

| GPT-5.4 | 57.7% | 闭源 |

开源模型首次在编程能力上逼近闭源 SOTA,差距仅 1 个百分点左右。对开发者来说,这意味着:不用依赖闭源 API,也能获得接近顶级的代码生成能力。

长时 Agent 任务:核心突破

这是 GLM-5.1 最具辨识度的能力。

传统模型有个通病:做复杂任务时,一开始表现不错,但很快就会"卡住"。给它们更多时间,表现也不会提升——因为它们已经在初始阶段用完了所有已知技巧。

GLM-5.1 的设计目标就是解决这个问题。官方描述:

> "GLM-5.1 is built to stay effective on agentic tasks over much longer horizons... The longer it runs, the better the result."

它的能力体现在:

  • 8 小时自主任务:能持续工作而不性能衰退
  • 数百轮迭代:不会在中途"放弃"或重复无效操作
  • 数千次工具调用:适合复杂的多步骤任务

实际场景:修复一个涉及多个文件的 bug、重构大型代码库、长时间自动化运维任务。这些场景传统模型做到一半就容易"跑偏"或陷入循环,GLM-5.1 能更稳定地完成。

其他能力

数学推理

  • AIME 2026: 95.3%
  • HMMT Feb. 2026: 82.6%

长上下文

  • 支持 200K tokens
  • 能处理大型代码仓库、长文档分析

Agent 工具调用

  • MCP-Atlas: 71.8%
  • Tool-Decathlon: 40.7%
  • Vending Bench 2: $5,634(模拟任务收益)

对谁有用?

开发者

开源可本地部署,数据无需出境。SGLang、vLLM、Transformers、KTransformers 等主流推理框架都已支持。适合:

  • 代码生成、重构、bug 修复
  • 代码审查辅助
  • 自动化脚本生成

企业用户

MIT 协议允许商用。本地部署保障数据隐私,适合对数据出境敏感的场景:

  • 内部代码库分析
  • 自动化运维
  • 持续集成/持续部署辅助

研究者

开源权重、完整训练流程。可在自有数据上微调,或用于学术研究。

如何使用?

本地部署

主流推理框架已支持:

  • SGLang(v0.5.10+):见官方 cookbook
  • vLLM(v0.19.0+):见官方 recipes
  • Transformers(v0.5.3+):见 transformers 文档
  • KTransformers(v0.5.3+):见官方教程

注意事项:754B 参数的 MoE 模型,本地部署需要较强的 GPU 资源。

API 调用

智谱 API 平台已上线:

  • 文档:https://docs.z.ai/guides/llm/glm-5.1
  • 即将开放:chat.z.ai

HuggingFace 下载

直接下载权重:

  • https://huggingface.co/zai-org/GLM-5.1

局限性

  • 硬件要求高:754B 参数,本地部署需要较强 GPU 资源
  • 生态初期:刚开源,社区工具可能不如 Llama、Qwen 成熟
  • 部分评测落后:如 HLE(31.0%)仍落后于 GPT-5.4(39.8%)等闭源模型

总结

GLM-5.1 的发布,标志着国产开源模型在"agent 工程能力"上有了实质性突破。它不是"又一个通用大模型",而是专门为长时、复杂任务设计的 agent 优先模型。

对于需要开源、可本地部署、支持长上下文场景的开发者和企业,这是一个值得关注的进展。尤其是那些需要在代码库上做长时间自动化操作的场景——GLM-5.1 的"8 小时自主任务"能力,可能正是你需要的。

---

参考来源

  • HuggingFace 模型页:https://huggingface.co/zai-org/GLM-5.1
  • 智谱 API 文档:https://docs.z.ai/guides/llm/glm-5.1
  • 技术报告:https://arxiv.org/abs/2602.15763

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。