Claude Opus 4.6 重磅发布：Anthropic 最强模型全面领先，编程与智能体能力再创新高

分类: 各厂语言模型 |发布于: 2/9/2026 |最后更新: 2/9/2026

🚀 Claude Opus 4.6 重磅发布

Anthropic 最强模型全面升级，编程、智能体、长上下文能力再创新高

📅 2026年2月9日 | 📊 数据来源：Anthropic 官方、Vellum AI、Artificial Analysis

2026年2月5日，Anthropic 正式发布了 Claude Opus 4.6，这是其迄今为止最强大的 AI 模型。新模型在智能体编程、计算机操作、工具使用、搜索和金融分析等多个领域均达到行业领先水平，部分指标大幅超越竞争对手。

  🎯 核心亮点速览
  SWE-bench Verified 80.8%：与 Opus 4.5 持平，超越 GPT-5.2 的 80.0%
Terminal-Bench 2.0 65.4%：智能体编程评测行业最高分
1M Token 上下文窗口：首个支持百万 Token 的 Opus 级模型
128K 输出 Token：支持超长输出，无需拆分请求
Agent Teams：Claude Code 新增多智能体协作功能

📊 核心评测数据

🔧 SWE-bench Verified（软件工程能力）

SWE-bench Verified 是评估 AI 模型解决真实 GitHub Issue 能力的权威基准。Claude Opus 4.6 在该评测中取得 80.8% 的成绩。

这一成绩与 Opus 4.5 的 80.9% 基本持平，略高于 GPT-5.2 的 80.0%，显著领先于 Sonnet 4.5（77.2%）和 Gemini 3 Pro（76.2%）。

💻 Terminal-Bench 2.0（智能体编程）

Terminal-Bench 2.0 评估模型在真实终端环境中执行复杂编程任务的能力。Opus 4.6 以 65.4% 的成绩创下行业新高。

这一成绩展示了 Opus 4.6 在长时间自主编程任务中的卓越表现。

🖥️ OSWorld（计算机操作）

OSWorld 评估模型操作计算机完成复杂任务的能力。Opus 4.6 取得 72.7% 的成绩。

📈 模型对比

评测项目	Claude Opus 4.6	Claude Opus 4.5	GPT-5.2	Gemini 3 Pro
SWE-bench Verified	80.8%	80.9%	80.0%	76.2%
Terminal-Bench 2.0	65.4%	-	-	-
OSWorld	72.7%	-	-	-
Humanity's Last Exam	行业领先	-	-	-
BrowseComp（搜索）	行业最高	-	-	-
上下文窗口	1M tokens	200K	128K	1M
最大输出	128K tokens	-	-	-

🆕 重要新功能

🤖 Agent Teams（智能体团队）

Claude Code 新增多智能体协作功能，可同时启动多个智能体并行工作，自主协调完成复杂任务，特别适合代码审查等需要分工的场景。

🧠 Adaptive Thinking（自适应思考）

模型可根据任务复杂度自动决定是否启用深度推理，开发者可通过 effort 参数（low/medium/high/max）精细控制。

📦 Context Compaction（上下文压缩）

自动总结和压缩旧上下文，让 Claude 能执行更长时间的任务而不会触及上下文限制。

📊 Claude in Excel/PowerPoint

Excel 集成大幅升级，新增 PowerPoint 支持（研究预览），可直接在办公软件中使用 AI 能力。

💰

定价不变：API 价格维持 $5/$25 每百万 Token（输入/输出）。超过 200K Token 的长上下文请求适用高级定价（$10/$37.50）。

🔒 安全性提升

Anthropic 强调 Opus 4.6 在能力提升的同时保持了出色的安全性：

在自动化行为审计中，错误对齐行为率与 Opus 4.5 持平（业界最低）
过度拒绝率（误拒良性请求）为近期 Claude 模型中最低
新增 6 个网络安全探测器，防止模型被滥用
运用可解释性技术深入理解模型行为

📋 点击查看早期合作伙伴评价

GitHub："在复杂的多步骤编程工作中表现出色，尤其是需要规划和工具调用的智能体工作流。"
Cursor："在长时间运行任务上达到新前沿，代码审查能力非常出色。"
Replit："智能体规划能力的巨大飞跃，能将复杂任务分解为独立子任务并行执行。"
Notion："感觉不像工具，更像一个有能力的协作者。"

📚 参考来源

本文由加装AI助手整理发布 | 数据来源：Anthropic、Vellum AI、Artificial Analysis