AI开源软件工具

Claude Sonnet 5 发布:Agent 能力逼近 Opus,1M 上下文,促销价 $2/$10

2026年7月1日1 次阅读
Claude Sonnet 5 发布:Agent 能力逼近 Opus,1M 上下文,促销价 $2/$10

Claude Sonnet 5 发布:Agent 能力逼近 Opus,1M 上下文,促销价 $2/$10

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

6月30日,Anthropic 正式发布 Claude Sonnet 5。这是 Sonnet 系列迄今为止 Agent 能力最强的一代——推理、工具使用、编码、知识工作全面超越上一代 Sonnet 4.6,多项指标逼近更昂贵的 Opus 4.8。同时,Sonnet 5 带来了原生 1M token 上下文窗口,并已取代前代成为 Claude Code 的默认模型。

这是什么

Claude Sonnet 5 是 Anthropic Sonnet 产品线的最新模型。Anthropic 在官方博文中明确表示,Sonnet 5 的目标是"缩小 Sonnet 和 Opus 之间的 Agent 能力差距"——过去几个月,Agent 能力的主要突破集中在 Opus 级别模型上,Sonnet 用户在复杂多步骤任务中经常感到力不从心。

Sonnet 5 改变了这个局面。在 Anthropic 公布的评测数据中:

  • 推理与编码:Sonnet 5 在多项编码和推理基准上大幅超越 Sonnet 4.6,部分任务接近 Opus 4.8 水平
  • 工具使用:在 BrowseComp(Agent 搜索评测)和 OSWorld-Verified(计算机使用评测)中,Sonnet 5 在中等 effort 下性价比远超 Opus 4.8,高 effort 模式下甚至能追平 Opus
  • 1M token 上下文:原生支持 100 万 token 的上下文窗口,不再需要额外处理长文档

为什么重要

对 AI 编程工具用户来说,这是最直接的升级。 Sonnet 5 已成为 Claude Code 的默认模型(v2.1.197),所有 Claude Code 用户更新后自动获得。这意味着:

  • 日常编码、调试、代码审查的质量和完成率会明显提升
  • 多步骤 Agent 任务(如"修复这个 bug 并写测试")的跟进行为更强——早期测试者反馈,Sonnet 5 能完成前代会中途放弃的复杂任务
  • 1M 上下文让大型代码库的理解和操作更可行

定价是另一个关键点。 Sonnet 5 推出了限时促销价:输入 $2/百万 token,输出 $10/百万 token,持续到 2026 年 8 月 31 日。之后恢复为输入 $3、输出 $15。对比 Opus 4.8 的价格,Sonnet 5 在接近的性能下便宜得多——对于预算敏感的开发者和团队,这是目前性价比最高的 Agent 级模型之一。

effort 机制让成本可控。 Sonnet 5 支持调节 effort 级别:低 effort 省钱处理简单任务,高 effort 冲击 Opus 级性能。在 Sonnet 5 和 Opus 4.8 之间,用户可以通过 effort 调节找到成本和性能的平衡点。

早期反馈说了什么

Anthropic 公布了多家合作方的早期测试反馈,核心信息一致:Sonnet 5 比 Sonnet 4.6 更"跟得住"——能完成复杂多步骤任务而不是中途停下,会主动检查自己的输出而不需要明确要求,而且价格有吸引力。

一个典型的例子:有测试者让 Sonnet 5 调查一个 bug,模型自发地写了复现测试、实现了修复、然后 stash 了修改来确认 bug 确实会复现——整个过程一步完成,不需要人工介入。

安全评估

Anthropic 的安全评估显示,Sonnet 5 整体比 Sonnet 4.6 更安全:

  • Agent 安全方面,更好地拒绝恶意请求和抵抗提示注入攻击
  • 幻觉和谄媚率低于 Sonnet 4.6
  • 自动化行为审计中,不良行为总体发生率低于 Sonnet 4.6

但值得注意的是,在自动化行为审计的部分指标上,Sonnet 5 的不良行为率高于 Opus 4.8 和 Claude Mythos Preview。另外,Anthropic 明确表示没有刻意训练 Sonnet 5 的网络安全能力——在开发浏览器漏洞等危险网络任务评测中,Sonnet 5 的表现显著弱于 Opus 级模型。

对谁有用

  • Claude Code 用户:更新到 v2.1.197 即可使用,默认模型已切换
  • API 开发者:通过 claude-sonnet-5 模型 ID 调用,促销期性价比极高
  • 预算有限的团队:Sonnet 5 + effort 调节,可以在大部分场景替代 Opus 4.8,成本大幅降低
  • 需要长上下文的场景:1M token 原生支持,处理大型代码库或长文档不再受限

局限

  • 不是 Opus 的完全替代:在最高难度任务上,Opus 4.8 仍有优势;Sonnet 5 是"接近"而非"超越"
  • 部分安全指标仍高于 Opus:自动化行为审计中,Sonnet 5 的不良行为率高于 Opus 4.8 和 Mythos Preview
  • 促销价有时限:8月31日后价格上涨 50%,长期成本规划需考虑恢复后的定价
  • 网络安全能力弱于 Opus:如果需要安全研究/渗透测试场景,Sonnet 5 不是最佳选择

---

基于 Anthropic 官方博文、Claude Code changelog 整理。

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。