各厂语言模型

Anthropic 发布 Claude Sonnet 5:中端模型性能逼近 Opus 4.8,价格砍半

2026年7月3日0 次阅读
Anthropic 发布 Claude Sonnet 5:中端模型性能逼近 Opus 4.8,价格砍半

Anthropic 发布 Claude Sonnet 5:中端模型性能逼近 Opus 4.8,价格砍半

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

6月30日,Anthropic 发布了 Claude Sonnet 5——Sonnet 系列的最新中端模型。一句话概括:性能接近旗舰 Opus 4.8,API 价格却只有它的几分之一。对开发者和企业来说,以前需要花 Opus 级别的钱才能跑的 agentic 任务,现在用 Sonnet 5 就能搞定。

性能:Sonnet 价格,Opus 级体验

Sonnet 5 在推理、工具使用、编码和知识工作上全面超越上一代 Sonnet 4.6。更关键的是,在 Anthropic 的 agentic 搜索评测 BrowseComp 和计算机使用评测 OSWorld-Verified 上,Sonnet 5 通过调节 effort level 可以追平 Opus 4.8 的表现——而 Opus 是 Anthropic 当前最贵的旗舰模型。

早期测试者的反馈很一致:Sonnet 5 能完成之前 Sonnet 模型会半途而废的复杂任务,而且不需要你提醒就会自检输出。有测试者描述了一个场景:让 Sonnet 5 排查一个 bug,它自己写了复现测试、实现了修复、然后 stash 掉修复确认 bug 回归——全程一个 pass,没有人工干预。

价格:限时 $2/$10,之后 $3/$15

API 定价是这次发布最吸引人的部分:

  • 限时定价(到8月31日):输入 $2 / 输出 $10(每百万 token)
  • 常规定价:输入 $3 / 输出 $15

对比 Opus 4.8 的价格,Sonnet 5 让 agentic 场景的规模化成本大幅下降。对每天跑大量自动化任务的企业来说,这个价差意味着从"能用"到"用得起"的质变。

在产品端,Sonnet 5 已经成为 Free 和 Pro 用户的默认模型,Max、Team、Enterprise 用户也可以使用。开发者通过 claude-sonnet-5 调用 API。

安全:刻意削弱网络攻击能力

Anthropic 的安全评估显示,Sonnet 5 整体不当行为率低于 Sonnet 4.6,抗 prompt injection 和劫持能力更强,幻觉和谄媚率也有所降低。

一个值得注意的设计选择:Sonnet 5 在网络安全任务上的能力远低于 Opus 级模型。Anthropic 明确表示没有刻意训练 Sonnet 5 做网络安全任务——它能处理一些常规的、无害的网络操作,但在开发软件漏洞等危险任务上表现明显更差。这不是能力不足,而是有意为之的安全设计。

Agentic 能力是核心升级

Sonnet 5 最大的卖点不是跑分,而是"能持续干活":

  • 编码:能独立完成从诊断 bug 到写测试到实现修复的全流程,不再需要每一步都人工确认
  • 工具使用:浏览器、终端等工具链持续操作不中断,之前 Sonnet 模型容易在中途"放弃"
  • 自动自检:不需要显式要求就会验证自己的输出,比如修完 bug 会主动确认修复有效

早期测试者中,有人让 Sonnet 5 处理 Salesforce 账户层级更新 + 发送企业通知的两步任务,以前会卡在中间,现在一步到位。还有团队用它跑了几十个真实 PR,每个都从诊断到测试到验证独立完成。

谁该用,谁不该用

适合

  • 需要大规模 agentic 编码的开发团队——性价比远超 Opus
  • 自动化工作流(CRM 操作、数据处理、文档生成)
  • 批量知识处理和分析任务

不太适合

  • 需要最强网络安全能力的专业场景——Opus 更合适
  • 创意写作和叙事场景——Fable 系列更擅长
  • 预算极度敏感但不需要 agentic 能力的简单问答——更轻量的模型可能更划算

---

*基于 Anthropic 官方博客及 The Verge 等多家媒体转述整理*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。