Claude Sonnet 5 发布:Agent 能力逼近 Opus,1M 上下文,促销价 $2/$10
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
6月30日,Anthropic 正式发布 Claude Sonnet 5。这是 Sonnet 系列迄今为止 Agent 能力最强的一代——推理、工具使用、编码、知识工作全面超越上一代 Sonnet 4.6,多项指标逼近更昂贵的 Opus 4.8。同时,Sonnet 5 带来了原生 1M token 上下文窗口,并已取代前代成为 Claude Code 的默认模型。
这是什么
Claude Sonnet 5 是 Anthropic Sonnet 产品线的最新模型。Anthropic 在官方博文中明确表示,Sonnet 5 的目标是"缩小 Sonnet 和 Opus 之间的 Agent 能力差距"——过去几个月,Agent 能力的主要突破集中在 Opus 级别模型上,Sonnet 用户在复杂多步骤任务中经常感到力不从心。
Sonnet 5 改变了这个局面。在 Anthropic 公布的评测数据中:
- 推理与编码:Sonnet 5 在多项编码和推理基准上大幅超越 Sonnet 4.6,部分任务接近 Opus 4.8 水平
- 工具使用:在 BrowseComp(Agent 搜索评测)和 OSWorld-Verified(计算机使用评测)中,Sonnet 5 在中等 effort 下性价比远超 Opus 4.8,高 effort 模式下甚至能追平 Opus
- 1M token 上下文:原生支持 100 万 token 的上下文窗口,不再需要额外处理长文档
为什么重要
对 AI 编程工具用户来说,这是最直接的升级。 Sonnet 5 已成为 Claude Code 的默认模型(v2.1.197),所有 Claude Code 用户更新后自动获得。这意味着:
- 日常编码、调试、代码审查的质量和完成率会明显提升
- 多步骤 Agent 任务(如"修复这个 bug 并写测试")的跟进行为更强——早期测试者反馈,Sonnet 5 能完成前代会中途放弃的复杂任务
- 1M 上下文让大型代码库的理解和操作更可行
定价是另一个关键点。 Sonnet 5 推出了限时促销价:输入 $2/百万 token,输出 $10/百万 token,持续到 2026 年 8 月 31 日。之后恢复为输入 $3、输出 $15。对比 Opus 4.8 的价格,Sonnet 5 在接近的性能下便宜得多——对于预算敏感的开发者和团队,这是目前性价比最高的 Agent 级模型之一。
effort 机制让成本可控。 Sonnet 5 支持调节 effort 级别:低 effort 省钱处理简单任务,高 effort 冲击 Opus 级性能。在 Sonnet 5 和 Opus 4.8 之间,用户可以通过 effort 调节找到成本和性能的平衡点。
早期反馈说了什么
Anthropic 公布了多家合作方的早期测试反馈,核心信息一致:Sonnet 5 比 Sonnet 4.6 更"跟得住"——能完成复杂多步骤任务而不是中途停下,会主动检查自己的输出而不需要明确要求,而且价格有吸引力。
一个典型的例子:有测试者让 Sonnet 5 调查一个 bug,模型自发地写了复现测试、实现了修复、然后 stash 了修改来确认 bug 确实会复现——整个过程一步完成,不需要人工介入。
安全评估
Anthropic 的安全评估显示,Sonnet 5 整体比 Sonnet 4.6 更安全:
- Agent 安全方面,更好地拒绝恶意请求和抵抗提示注入攻击
- 幻觉和谄媚率低于 Sonnet 4.6
- 自动化行为审计中,不良行为总体发生率低于 Sonnet 4.6
但值得注意的是,在自动化行为审计的部分指标上,Sonnet 5 的不良行为率高于 Opus 4.8 和 Claude Mythos Preview。另外,Anthropic 明确表示没有刻意训练 Sonnet 5 的网络安全能力——在开发浏览器漏洞等危险网络任务评测中,Sonnet 5 的表现显著弱于 Opus 级模型。
对谁有用
- Claude Code 用户:更新到 v2.1.197 即可使用,默认模型已切换
- API 开发者:通过
claude-sonnet-5模型 ID 调用,促销期性价比极高 - 预算有限的团队:Sonnet 5 + effort 调节,可以在大部分场景替代 Opus 4.8,成本大幅降低
- 需要长上下文的场景:1M token 原生支持,处理大型代码库或长文档不再受限
局限
- 不是 Opus 的完全替代:在最高难度任务上,Opus 4.8 仍有优势;Sonnet 5 是"接近"而非"超越"
- 部分安全指标仍高于 Opus:自动化行为审计中,Sonnet 5 的不良行为率高于 Opus 4.8 和 Mythos Preview
- 促销价有时限:8月31日后价格上涨 50%,长期成本规划需考虑恢复后的定价
- 网络安全能力弱于 Opus:如果需要安全研究/渗透测试场景,Sonnet 5 不是最佳选择
---
基于 Anthropic 官方博文、Claude Code changelog 整理。
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。