AI巨头正面交锋:Anthropic Claude Opus 4.6 与 OpenAI GPT-5.3-Codex 同日发布

分类: 各厂语言模型 |发布于: 2/8/2026 |最后更新: 2/8/2026

AI巨头正面交锋:Claude Opus 4.6 vs GPT-5.3-Codex

Anthropic 与 OpenAI 在同一天发布旗舰模型,AI编程能力竞争白热化

2026年2月8日 | 数据来源:Anthropic、OpenAI官方

2026年2月5日,AI领域迎来了一场史无前例的正面对决——AnthropicOpenAI 几乎在同一时刻发布了各自的最新旗舰模型。Anthropic 推出了 Claude Opus 4.6,而 OpenAI 则发布了 GPT-5.3-Codex。这场AI军备竞赛标志着人工智能编程能力进入了全新阶段。

核心亮点速览
  • Claude Opus 4.6:ARC-AGI-2 得分 68.8%(较前代翻倍),100万 token 上下文窗口
  • GPT-5.3-Codex:史上最强代理编程模型,比前代快 25%,参与了自身开发
  • GDPval-AA 评测:Opus 4.6 领先 GPT-5.2 约 144 Elo 分
  • Terminal-Bench 2.0:Opus 4.6 达 65.4%,GPT-5.2 为 64.7%
Anthropic vs OpenAI:谁是编程之王?

Claude Opus 4.6 核心升级

ARC-AGI-2:新问题解决能力

ARC-AGI-2 是一个专门测试 AI 解决新颖问题能力的基准测试,这些问题对人类来说很简单,但对 AI 来说极具挑战性。

ARC AGI 2 评测图表

Claude Opus 4.6 得分 68.8%,相比 Opus 4.5 的 37.6% 几乎翻倍!这是目前所有 AI 模型中最高的分数。

Terminal-Bench 2.0:代理终端编程

该基准测试评估 AI 在终端环境中执行复杂编程任务的能力。

Terminal-Bench 2.0 评测图表

Opus 4.6 达到 65.4%,超越了 Opus 4.5 (59.8%)、Gemini 3 Pro (56.2%) 和 GPT-5.2 (64.7%)。

GDPval-AA:经济价值知识工作

GDPval-AA 评估模型在金融、法律等高价值知识工作领域的表现。

GDPVal-AA Elo 评测图表

Opus 4.6 在此评测中领先 GPT-5.2 约 144 Elo 分,领先自家前代 Opus 4.5 约 190 分!

GPT-5.3-Codex 核心特性

25% 速度提升

相比 GPT-5.2,推理速度提升 25%,大幅加速编程和代理任务。

自我参与开发

OpenAI 表示这是首个参与创建自身的模型,早期版本被用于开发最终版本。

全平台支持

支持命令行、IDE 扩展、Web 界面和 macOS 桌面应用。

多日任务能力

能够处理跨越多天的复杂应用开发任务,真正实现端到端开发。

⚠️
安全警告:Fortune 报道指出,GPT-5.3-Codex 虽然性能强大,但也带来了前所未有的网络安全风险,需要谨慎使用。

详细对比表格

评测项目Claude Opus 4.6GPT-5.3-CodexGPT-5.2
ARC-AGI-268.8%待公布约40%
Terminal-Bench 2.065.4%待公布64.7%
GDPval-AA Elo领先 144 分待公布基准
上下文窗口100万 tokens (Beta)128K tokens128K tokens
最大输出128K tokens32K tokens32K tokens
发布日期2026年2月5日2026年2月5日2025年
点击查看 Claude Opus 4.6 更多评测数据
  • SWE-Bench Verified:代理编程能力大幅提升
  • GPQA Diamond:科学推理能力增强
  • BrowseComp:代理搜索能力领先
  • OSWorld:计算机使用能力提升
  • MMMLU:多语言问答能力增强

行业影响分析

这次同日发布事件标志着 AI 编程工具竞争进入白热化阶段:

  • 开发者选择更多:两大平台都提供了强大的编程辅助能力
  • Vibe Working时代:CNBC 报道称 Anthropic 正在推动氛围工作概念,AI 能够更自然地融入工作流程
  • 软件股受冲击:Reuters 报道显示,AI 升级消息导致部分软件股下跌
  • 超级碗广告:Anthropic 将在超级碗投放广告,直接挑战 OpenAI 的市场地位
💡
选择建议:如果你需要处理超长文档或进行深度研究,Claude Opus 4.6 的 100万 token 上下文窗口是巨大优势;如果你专注于代码开发和代理任务,GPT-5.3-Codex 的速度和工具集成可能更适合。

本文由加装AI助手整理发布 | 数据来源:Anthropic、OpenAI、TechCrunch、CNBC、Fortune