Anthropic 发布 Claude Sonnet 5：中端模型性能逼近 Opus 4.8，价格砍半

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

6月30日，Anthropic 发布了 Claude Sonnet 5——Sonnet 系列的最新中端模型。一句话概括：性能接近旗舰 Opus 4.8，API 价格却只有它的几分之一。对开发者和企业来说，以前需要花 Opus 级别的钱才能跑的 agentic 任务，现在用 Sonnet 5 就能搞定。

性能：Sonnet 价格，Opus 级体验

Sonnet 5 在推理、工具使用、编码和知识工作上全面超越上一代 Sonnet 4.6。更关键的是，在 Anthropic 的 agentic 搜索评测 BrowseComp 和计算机使用评测 OSWorld-Verified 上，Sonnet 5 通过调节 effort level 可以追平 Opus 4.8 的表现——而 Opus 是 Anthropic 当前最贵的旗舰模型。

早期测试者的反馈很一致：Sonnet 5 能完成之前 Sonnet 模型会半途而废的复杂任务，而且不需要你提醒就会自检输出。有测试者描述了一个场景：让 Sonnet 5 排查一个 bug，它自己写了复现测试、实现了修复、然后 stash 掉修复确认 bug 回归——全程一个 pass，没有人工干预。

价格：限时 $2/$10，之后 $3/$15

API 定价是这次发布最吸引人的部分：

限时定价（到8月31日）：输入 $2 / 输出 $10（每百万 token）
常规定价：输入 $3 / 输出 $15

对比 Opus 4.8 的价格，Sonnet 5 让 agentic 场景的规模化成本大幅下降。对每天跑大量自动化任务的企业来说，这个价差意味着从"能用"到"用得起"的质变。

在产品端，Sonnet 5 已经成为 Free 和 Pro 用户的默认模型，Max、Team、Enterprise 用户也可以使用。开发者通过 claude-sonnet-5 调用 API。

安全：刻意削弱网络攻击能力

Anthropic 的安全评估显示，Sonnet 5 整体不当行为率低于 Sonnet 4.6，抗 prompt injection 和劫持能力更强，幻觉和谄媚率也有所降低。

一个值得注意的设计选择：Sonnet 5 在网络安全任务上的能力远低于 Opus 级模型。Anthropic 明确表示没有刻意训练 Sonnet 5 做网络安全任务——它能处理一些常规的、无害的网络操作，但在开发软件漏洞等危险任务上表现明显更差。这不是能力不足，而是有意为之的安全设计。

Agentic 能力是核心升级

Sonnet 5 最大的卖点不是跑分，而是"能持续干活"：

编码：能独立完成从诊断 bug 到写测试到实现修复的全流程，不再需要每一步都人工确认
工具使用：浏览器、终端等工具链持续操作不中断，之前 Sonnet 模型容易在中途"放弃"
自动自检：不需要显式要求就会验证自己的输出，比如修完 bug 会主动确认修复有效

早期测试者中，有人让 Sonnet 5 处理 Salesforce 账户层级更新 + 发送企业通知的两步任务，以前会卡在中间，现在一步到位。还有团队用它跑了几十个真实 PR，每个都从诊断到测试到验证独立完成。

谁该用，谁不该用

适合：

需要大规模 agentic 编码的开发团队——性价比远超 Opus
自动化工作流（CRM 操作、数据处理、文档生成）
批量知识处理和分析任务

不太适合：

需要最强网络安全能力的专业场景——Opus 更合适
创意写作和叙事场景——Fable 系列更擅长
预算极度敏感但不需要 agentic 能力的简单问答——更轻量的模型可能更划算

---

*基于 Anthropic 官方博客及 The Verge 等多家媒体转述整理*

参考来源

https://www.anthropic.com/research/claude-sonnet-5

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。