Claude Sonnet 5 发布：Agent 能力逼近 Opus，1M 上下文，促销价 $2/$10

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

6月30日，Anthropic 正式发布 Claude Sonnet 5。这是 Sonnet 系列迄今为止 Agent 能力最强的一代——推理、工具使用、编码、知识工作全面超越上一代 Sonnet 4.6，多项指标逼近更昂贵的 Opus 4.8。同时，Sonnet 5 带来了原生 1M token 上下文窗口，并已取代前代成为 Claude Code 的默认模型。

这是什么

Claude Sonnet 5 是 Anthropic Sonnet 产品线的最新模型。Anthropic 在官方博文中明确表示，Sonnet 5 的目标是"缩小 Sonnet 和 Opus 之间的 Agent 能力差距"——过去几个月，Agent 能力的主要突破集中在 Opus 级别模型上，Sonnet 用户在复杂多步骤任务中经常感到力不从心。

Sonnet 5 改变了这个局面。在 Anthropic 公布的评测数据中：

推理与编码：Sonnet 5 在多项编码和推理基准上大幅超越 Sonnet 4.6，部分任务接近 Opus 4.8 水平
工具使用：在 BrowseComp（Agent 搜索评测）和 OSWorld-Verified（计算机使用评测）中，Sonnet 5 在中等 effort 下性价比远超 Opus 4.8，高 effort 模式下甚至能追平 Opus
1M token 上下文：原生支持 100 万 token 的上下文窗口，不再需要额外处理长文档

为什么重要

对 AI 编程工具用户来说，这是最直接的升级。 Sonnet 5 已成为 Claude Code 的默认模型（v2.1.197），所有 Claude Code 用户更新后自动获得。这意味着：

日常编码、调试、代码审查的质量和完成率会明显提升
多步骤 Agent 任务（如"修复这个 bug 并写测试"）的跟进行为更强——早期测试者反馈，Sonnet 5 能完成前代会中途放弃的复杂任务
1M 上下文让大型代码库的理解和操作更可行

定价是另一个关键点。 Sonnet 5 推出了限时促销价：输入 $2/百万 token，输出 $10/百万 token，持续到 2026 年 8 月 31 日。之后恢复为输入 $3、输出 $15。对比 Opus 4.8 的价格，Sonnet 5 在接近的性能下便宜得多——对于预算敏感的开发者和团队，这是目前性价比最高的 Agent 级模型之一。

effort 机制让成本可控。 Sonnet 5 支持调节 effort 级别：低 effort 省钱处理简单任务，高 effort 冲击 Opus 级性能。在 Sonnet 5 和 Opus 4.8 之间，用户可以通过 effort 调节找到成本和性能的平衡点。

早期反馈说了什么

Anthropic 公布了多家合作方的早期测试反馈，核心信息一致：Sonnet 5 比 Sonnet 4.6 更"跟得住"——能完成复杂多步骤任务而不是中途停下，会主动检查自己的输出而不需要明确要求，而且价格有吸引力。

一个典型的例子：有测试者让 Sonnet 5 调查一个 bug，模型自发地写了复现测试、实现了修复、然后 stash 了修改来确认 bug 确实会复现——整个过程一步完成，不需要人工介入。

安全评估

Anthropic 的安全评估显示，Sonnet 5 整体比 Sonnet 4.6 更安全：

Agent 安全方面，更好地拒绝恶意请求和抵抗提示注入攻击
幻觉和谄媚率低于 Sonnet 4.6
自动化行为审计中，不良行为总体发生率低于 Sonnet 4.6

但值得注意的是，在自动化行为审计的部分指标上，Sonnet 5 的不良行为率高于 Opus 4.8 和 Claude Mythos Preview。另外，Anthropic 明确表示没有刻意训练 Sonnet 5 的网络安全能力——在开发浏览器漏洞等危险网络任务评测中，Sonnet 5 的表现显著弱于 Opus 级模型。

对谁有用

Claude Code 用户：更新到 v2.1.197 即可使用，默认模型已切换
API 开发者：通过 claude-sonnet-5 模型 ID 调用，促销期性价比极高
预算有限的团队：Sonnet 5 + effort 调节，可以在大部分场景替代 Opus 4.8，成本大幅降低
需要长上下文的场景：1M token 原生支持，处理大型代码库或长文档不再受限

局限

不是 Opus 的完全替代：在最高难度任务上，Opus 4.8 仍有优势；Sonnet 5 是"接近"而非"超越"
部分安全指标仍高于 Opus：自动化行为审计中，Sonnet 5 的不良行为率高于 Opus 4.8 和 Mythos Preview
促销价有时限：8月31日后价格上涨 50%，长期成本规划需考虑恢复后的定价
网络安全能力弱于 Opus：如果需要安全研究/渗透测试场景，Sonnet 5 不是最佳选择

---

基于 Anthropic 官方博文、Claude Code changelog 整理。

参考来源

https://www.anthropic.com/news/claude-sonnet-5

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。