Claude Opus 4.6 深度评测：Agent 能力全面领先，抽象推理翻倍提升

分类: 各厂语言模型 |发布于: 2/7/2026 |最后更新: 2/7/2026

🚀 Claude Opus 4.6 深度评测

Agent 能力全面领先，抽象推理能力翻倍提升，100万 Token 上下文窗口

📅 2026年2月5日发布 | 📊 基于 Vellum AI 评测数据

2026年2月5日，Anthropic 正式发布了 Claude Opus 4.6，这是 Opus 系列首个支持 100万 Token 上下文窗口 的模型。在多项基准测试中，Opus 4.6 展现出惊人的进步，尤其是在 Agent 任务和抽象推理方面。

🎯 核心亮点速览ARC AGI 2 抽象推理：68.8%（比 Opus 4.5 的 37.6% 翻倍！）
BrowseComp 网页搜索：84.0%（领先 GPT-5.2 Pro 的 77.9%）
OSWorld 电脑操控：72.7%（比 Opus 4.5 提升 6.4 个百分点）
100万 Token 上下文（Opus 系列首次）

📊 编程与软件工程

Terminal-Bench 2.0 终端编程

评估模型在命令行环境中执行 shell 命令和开发操作的能力。

Opus 4.6 得分 65.4%，大幅领先 Opus 4.5 的 59.8%，也超过了 Gemini 3 Pro 的 56.2%。

SWE-bench Verified 代码工程

测试模型解决真实 GitHub Issue 的能力，是衡量实际编程能力的重要指标。

Opus 4.6 达到 80.8%，与 Opus 4.5 (80.9%) 和 GPT-5.2 (80.0%) 基本持平，保持顶尖水准。

🛠️ Agent 工具调用

τ2-bench 工具调用（零售场景）

评估复杂多步骤工具调用能力，模拟真实业务场景。

Opus 4.6 达到 91.9%，超越所有竞争对手：Opus 4.5 (88.9%)、GPT-5.2 (82.0%)、Gemini 3 Pro (85.3%)。

🖥️ 电脑操控与网页搜索

OSWorld 电脑操控

评估模型通过 GUI 控制电脑、执行桌面自动化任务的能力。

Opus 4.6 得分 72.7%，比 Opus 4.5 的 66.3% 提升了 6.4 个百分点，这对实际自动化工作流意义重大。

BrowseComp 网页搜索

评估网页浏览、信息提取和多步骤研究任务的能力。

🏆 Opus 4.6 以 84.0% 碾压全场！比 Opus 4.5 的 67.8% 提升了 16.2 个百分点，也大幅领先 GPT-5.2 Pro 的 77.9%。

🧠 推理与通用智能

ARC AGI 2 抽象推理

测试抽象推理和模式识别能力，是衡量通用智能的最具挑战性基准之一。

🔥

Opus 4.6 得分 68.8%，几乎是 Opus 4.5 (37.6%) 的两倍！
这是本次发布中最惊人的进步，表明 Anthropic 在抽象推理能力上取得了根本性突破。

GPQA Diamond 研究生级推理

物理、化学、生物学的博士级问题，测试专业知识和推理深度。

Opus 4.6 达到 91.3%，与 Gemini 3 Pro (91.9%) 接近，略低于 GPT-5.2 Pro (93.2%)。

💼 知识工作与金融分析

GDPVal-AA 办公任务

使用 Elo 评分系统评估知识工作能力，包括演示文稿、电子表格、文档等。

Opus 4.6 得分 1606 Elo，大幅领先 Opus 4.5 (1416)、GPT-5.2 (1462)、Gemini 3 Pro (1195)。

Finance Agent 金融分析

评估真实金融分析任务的表现，包括数据解读、计算和金融推理。

Opus 4.6 以 60.7% 领先全场，超过 GPT-5.2 (56.6%)、Opus 4.5 (55.9%)、Gemini 3 Pro (44.1%)。

📋 点击查看完整评测数据表

基准测试	Opus 4.6	Opus 4.5	GPT-5.2	Gemini 3 Pro
Terminal-Bench 2.0	65.4%	59.8%	64.7%	56.2%
SWE-bench Verified	80.8%	80.9%	80.0%	76.2%
τ2-bench Retail	91.9%	88.9%	82.0%	85.3%
OSWorld	72.7%	66.3%	-	-
BrowseComp	84.0%	67.8%	77.9%	59.2%
ARC AGI 2	68.8%	37.6%	54.2%	45.1%
GPQA Diamond	91.3%	87.0%	93.2%	91.9%
GDPVal-AA Elo	1606	1416	1462	1195
Finance Agent	60.7%	55.9%	56.6%	44.1%

💡 总结：为什么 Opus 4.6 值得关注

🎯 适合场景研究型 Agent：BrowseComp 84% 的网页搜索能力无人能敌
自动化工作流：OSWorld 72.7% 的电脑操控能力大幅提升
金融分析：Finance Agent 60.7% 领先所有竞品
复杂推理任务：ARC AGI 2 翻倍提升，抽象推理能力质变

⚠️

注意事项：MCP Atlas 大规模工具调用从 62.3% 下降到 59.5%，如果你的 Agent 需要同时协调大量工具，可能需要额外的编排逻辑。

📚 参考来源

本文由加装AI助手整理发布 | 数据来源：Vellum AI 2026年2月评测