Claude Opus 4.6 深度评测:Agent 能力全面领先,抽象推理翻倍提升
🚀 Claude Opus 4.6 深度评测
Agent 能力全面领先,抽象推理能力翻倍提升,100万 Token 上下文窗口
2026年2月5日,Anthropic 正式发布了 Claude Opus 4.6,这是 Opus 系列首个支持 100万 Token 上下文窗口 的模型。在多项基准测试中,Opus 4.6 展现出惊人的进步,尤其是在 Agent 任务和抽象推理方面。
- ARC AGI 2 抽象推理:68.8%(比 Opus 4.5 的 37.6% 翻倍!)
- BrowseComp 网页搜索:84.0%(领先 GPT-5.2 Pro 的 77.9%)
- OSWorld 电脑操控:72.7%(比 Opus 4.5 提升 6.4 个百分点)
- 100万 Token 上下文(Opus 系列首次)
📊 编程与软件工程
Terminal-Bench 2.0 终端编程
评估模型在命令行环境中执行 shell 命令和开发操作的能力。

Opus 4.6 得分 65.4%,大幅领先 Opus 4.5 的 59.8%,也超过了 Gemini 3 Pro 的 56.2%。
SWE-bench Verified 代码工程
测试模型解决真实 GitHub Issue 的能力,是衡量实际编程能力的重要指标。

Opus 4.6 达到 80.8%,与 Opus 4.5 (80.9%) 和 GPT-5.2 (80.0%) 基本持平,保持顶尖水准。
🛠️ Agent 工具调用
τ2-bench 工具调用(零售场景)
评估复杂多步骤工具调用能力,模拟真实业务场景。

Opus 4.6 达到 91.9%,超越所有竞争对手:Opus 4.5 (88.9%)、GPT-5.2 (82.0%)、Gemini 3 Pro (85.3%)。
🖥️ 电脑操控与网页搜索
OSWorld 电脑操控
评估模型通过 GUI 控制电脑、执行桌面自动化任务的能力。

Opus 4.6 得分 72.7%,比 Opus 4.5 的 66.3% 提升了 6.4 个百分点,这对实际自动化工作流意义重大。
BrowseComp 网页搜索
评估网页浏览、信息提取和多步骤研究任务的能力。

🏆 Opus 4.6 以 84.0% 碾压全场!比 Opus 4.5 的 67.8% 提升了 16.2 个百分点,也大幅领先 GPT-5.2 Pro 的 77.9%。
🧠 推理与通用智能
ARC AGI 2 抽象推理
测试抽象推理和模式识别能力,是衡量通用智能的最具挑战性基准之一。

这是本次发布中最惊人的进步,表明 Anthropic 在抽象推理能力上取得了根本性突破。
GPQA Diamond 研究生级推理
物理、化学、生物学的博士级问题,测试专业知识和推理深度。

Opus 4.6 达到 91.3%,与 Gemini 3 Pro (91.9%) 接近,略低于 GPT-5.2 Pro (93.2%)。
💼 知识工作与金融分析
GDPVal-AA 办公任务
使用 Elo 评分系统评估知识工作能力,包括演示文稿、电子表格、文档等。

Opus 4.6 得分 1606 Elo,大幅领先 Opus 4.5 (1416)、GPT-5.2 (1462)、Gemini 3 Pro (1195)。
Finance Agent 金融分析
评估真实金融分析任务的表现,包括数据解读、计算和金融推理。

Opus 4.6 以 60.7% 领先全场,超过 GPT-5.2 (56.6%)、Opus 4.5 (55.9%)、Gemini 3 Pro (44.1%)。
📋 点击查看完整评测数据表
| 基准测试 | Opus 4.6 | Opus 4.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 65.4% | 59.8% | 64.7% | 56.2% |
| SWE-bench Verified | 80.8% | 80.9% | 80.0% | 76.2% |
| τ2-bench Retail | 91.9% | 88.9% | 82.0% | 85.3% |
| OSWorld | 72.7% | 66.3% | - | - |
| BrowseComp | 84.0% | 67.8% | 77.9% | 59.2% |
| ARC AGI 2 | 68.8% | 37.6% | 54.2% | 45.1% |
| GPQA Diamond | 91.3% | 87.0% | 93.2% | 91.9% |
| GDPVal-AA Elo | 1606 | 1416 | 1462 | 1195 |
| Finance Agent | 60.7% | 55.9% | 56.6% | 44.1% |
💡 总结:为什么 Opus 4.6 值得关注
- 研究型 Agent:BrowseComp 84% 的网页搜索能力无人能敌
- 自动化工作流:OSWorld 72.7% 的电脑操控能力大幅提升
- 金融分析:Finance Agent 60.7% 领先所有竞品
- 复杂推理任务:ARC AGI 2 翻倍提升,抽象推理能力质变
本文由加装AI助手整理发布 | 数据来源:Vellum AI 2026年2月评测