Claude Opus 4.6 深度评测:Agent 能力全面领先,抽象推理翻倍提升

分类: 各厂语言模型 |发布于: 2/7/2026 |最后更新: 2/7/2026

🚀 Claude Opus 4.6 深度评测

Agent 能力全面领先,抽象推理能力翻倍提升,100万 Token 上下文窗口

📅 2026年2月5日发布 | 📊 基于 Vellum AI 评测数据

2026年2月5日,Anthropic 正式发布了 Claude Opus 4.6,这是 Opus 系列首个支持 100万 Token 上下文窗口 的模型。在多项基准测试中,Opus 4.6 展现出惊人的进步,尤其是在 Agent 任务和抽象推理方面。

🎯 核心亮点速览
  • ARC AGI 2 抽象推理:68.8%(比 Opus 4.5 的 37.6% 翻倍!)
  • BrowseComp 网页搜索:84.0%(领先 GPT-5.2 Pro 的 77.9%)
  • OSWorld 电脑操控:72.7%(比 Opus 4.5 提升 6.4 个百分点)
  • 100万 Token 上下文(Opus 系列首次)

📊 编程与软件工程

Terminal-Bench 2.0 终端编程

评估模型在命令行环境中执行 shell 命令和开发操作的能力。

Terminal-Bench 2.0 评测对比

Opus 4.6 得分 65.4%,大幅领先 Opus 4.5 的 59.8%,也超过了 Gemini 3 Pro 的 56.2%。

SWE-bench Verified 代码工程

测试模型解决真实 GitHub Issue 的能力,是衡量实际编程能力的重要指标。

SWE-bench Verified 评测对比

Opus 4.6 达到 80.8%,与 Opus 4.5 (80.9%) 和 GPT-5.2 (80.0%) 基本持平,保持顶尖水准。

🛠️ Agent 工具调用

τ2-bench 工具调用(零售场景)

评估复杂多步骤工具调用能力,模拟真实业务场景。

τ2-bench Retail 评测对比

Opus 4.6 达到 91.9%,超越所有竞争对手:Opus 4.5 (88.9%)、GPT-5.2 (82.0%)、Gemini 3 Pro (85.3%)。

🖥️ 电脑操控与网页搜索

OSWorld 电脑操控

评估模型通过 GUI 控制电脑、执行桌面自动化任务的能力。

OSWorld 评测对比

Opus 4.6 得分 72.7%,比 Opus 4.5 的 66.3% 提升了 6.4 个百分点,这对实际自动化工作流意义重大。

BrowseComp 网页搜索

评估网页浏览、信息提取和多步骤研究任务的能力。

BrowseComp 评测对比

🏆 Opus 4.6 以 84.0% 碾压全场!比 Opus 4.5 的 67.8% 提升了 16.2 个百分点,也大幅领先 GPT-5.2 Pro 的 77.9%。

🧠 推理与通用智能

ARC AGI 2 抽象推理

测试抽象推理和模式识别能力,是衡量通用智能的最具挑战性基准之一。

ARC AGI 2 评测对比
🔥
Opus 4.6 得分 68.8%,几乎是 Opus 4.5 (37.6%) 的两倍!
这是本次发布中最惊人的进步,表明 Anthropic 在抽象推理能力上取得了根本性突破。

GPQA Diamond 研究生级推理

物理、化学、生物学的博士级问题,测试专业知识和推理深度。

GPQA Diamond 评测对比

Opus 4.6 达到 91.3%,与 Gemini 3 Pro (91.9%) 接近,略低于 GPT-5.2 Pro (93.2%)。

💼 知识工作与金融分析

GDPVal-AA 办公任务

使用 Elo 评分系统评估知识工作能力,包括演示文稿、电子表格、文档等。

GDPVal-AA Elo 评测对比

Opus 4.6 得分 1606 Elo,大幅领先 Opus 4.5 (1416)、GPT-5.2 (1462)、Gemini 3 Pro (1195)。

Finance Agent 金融分析

评估真实金融分析任务的表现,包括数据解读、计算和金融推理。

Finance Agent 评测对比

Opus 4.6 以 60.7% 领先全场,超过 GPT-5.2 (56.6%)、Opus 4.5 (55.9%)、Gemini 3 Pro (44.1%)。

📋 点击查看完整评测数据表
基准测试Opus 4.6Opus 4.5GPT-5.2Gemini 3 Pro
Terminal-Bench 2.065.4%59.8%64.7%56.2%
SWE-bench Verified80.8%80.9%80.0%76.2%
τ2-bench Retail91.9%88.9%82.0%85.3%
OSWorld72.7%66.3%--
BrowseComp84.0%67.8%77.9%59.2%
ARC AGI 268.8%37.6%54.2%45.1%
GPQA Diamond91.3%87.0%93.2%91.9%
GDPVal-AA Elo1606141614621195
Finance Agent60.7%55.9%56.6%44.1%

💡 总结:为什么 Opus 4.6 值得关注

🎯 适合场景
  • 研究型 Agent:BrowseComp 84% 的网页搜索能力无人能敌
  • 自动化工作流:OSWorld 72.7% 的电脑操控能力大幅提升
  • 金融分析:Finance Agent 60.7% 领先所有竞品
  • 复杂推理任务:ARC AGI 2 翻倍提升,抽象推理能力质变
⚠️
注意事项:MCP Atlas 大规模工具调用从 62.3% 下降到 59.5%,如果你的 Agent 需要同时协调大量工具,可能需要额外的编排逻辑。

本文由加装AI助手整理发布 | 数据来源:Vellum AI 2026年2月评测