Claude Opus 4.6 重磅发布:Anthropic 最强模型全面领先,编程与智能体能力再创新高

分类: 各厂语言模型 |发布于: 2/9/2026 |最后更新: 2/9/2026

🚀 Claude Opus 4.6 重磅发布

Anthropic 最强模型全面升级,编程、智能体、长上下文能力再创新高

📅 2026年2月9日 | 📊 数据来源:Anthropic 官方、Vellum AI、Artificial Analysis

2026年2月5日,Anthropic 正式发布了 Claude Opus 4.6,这是其迄今为止最强大的 AI 模型。新模型在智能体编程、计算机操作、工具使用、搜索和金融分析等多个领域均达到行业领先水平,部分指标大幅超越竞争对手。

🎯 核心亮点速览
  • SWE-bench Verified 80.8%:与 Opus 4.5 持平,超越 GPT-5.2 的 80.0%
  • Terminal-Bench 2.0 65.4%:智能体编程评测行业最高分
  • 1M Token 上下文窗口:首个支持百万 Token 的 Opus 级模型
  • 128K 输出 Token:支持超长输出,无需拆分请求
  • Agent Teams:Claude Code 新增多智能体协作功能

📊 核心评测数据

🔧 SWE-bench Verified(软件工程能力)

SWE-bench Verified 是评估 AI 模型解决真实 GitHub Issue 能力的权威基准。Claude Opus 4.6 在该评测中取得 80.8% 的成绩。

SWE-bench Verified 评测对比

这一成绩与 Opus 4.5 的 80.9% 基本持平,略高于 GPT-5.2 的 80.0%,显著领先于 Sonnet 4.5(77.2%)和 Gemini 3 Pro(76.2%)。

💻 Terminal-Bench 2.0(智能体编程)

Terminal-Bench 2.0 评估模型在真实终端环境中执行复杂编程任务的能力。Opus 4.6 以 65.4% 的成绩创下行业新高。

Terminal-Bench 2.0 评测对比

这一成绩展示了 Opus 4.6 在长时间自主编程任务中的卓越表现。

🖥️ OSWorld(计算机操作)

OSWorld 评估模型操作计算机完成复杂任务的能力。Opus 4.6 取得 72.7% 的成绩。

OSWorld 评测对比

📈 模型对比

评测项目Claude Opus 4.6Claude Opus 4.5GPT-5.2Gemini 3 Pro
SWE-bench Verified80.8%80.9%80.0%76.2%
Terminal-Bench 2.065.4%---
OSWorld72.7%---
Humanity's Last Exam行业领先---
BrowseComp(搜索)行业最高---
上下文窗口1M tokens200K128K1M
最大输出128K tokens---

🆕 重要新功能

🤖 Agent Teams(智能体团队)

Claude Code 新增多智能体协作功能,可同时启动多个智能体并行工作,自主协调完成复杂任务,特别适合代码审查等需要分工的场景。

🧠 Adaptive Thinking(自适应思考)

模型可根据任务复杂度自动决定是否启用深度推理,开发者可通过 effort 参数(low/medium/high/max)精细控制。

📦 Context Compaction(上下文压缩)

自动总结和压缩旧上下文,让 Claude 能执行更长时间的任务而不会触及上下文限制。

📊 Claude in Excel/PowerPoint

Excel 集成大幅升级,新增 PowerPoint 支持(研究预览),可直接在办公软件中使用 AI 能力。

💰
定价不变:API 价格维持 $5/$25 每百万 Token(输入/输出)。超过 200K Token 的长上下文请求适用高级定价($10/$37.50)。

🔒 安全性提升

Anthropic 强调 Opus 4.6 在能力提升的同时保持了出色的安全性:

  • 在自动化行为审计中,错误对齐行为率与 Opus 4.5 持平(业界最低)
  • 过度拒绝率(误拒良性请求)为近期 Claude 模型中最低
  • 新增 6 个网络安全探测器,防止模型被滥用
  • 运用可解释性技术深入理解模型行为
📋 点击查看早期合作伙伴评价
  • GitHub:"在复杂的多步骤编程工作中表现出色,尤其是需要规划和工具调用的智能体工作流。"
  • Cursor:"在长时间运行任务上达到新前沿,代码审查能力非常出色。"
  • Replit:"智能体规划能力的巨大飞跃,能将复杂任务分解为独立子任务并行执行。"
  • Notion:"感觉不像工具,更像一个有能力的协作者。"

本文由加装AI助手整理发布 | 数据来源:Anthropic、Vellum AI、Artificial Analysis