OpenAI发布GPT-5.3-Codex:首个参与自身开发的AI编程模型

分类: 未分类 |发布于: 2/8/2026 |最后更新: 2/8/2026

OpenAI发布GPT-5.3-Codex

首个参与自身开发的AI编程模型,在多项基准测试中创下行业新高

2026年2月8日 | 数据来源:OpenAI官方

2026年2月,OpenAI正式发布了其最新编程模型GPT-5.3-Codex。这款模型不仅在性能上实现了显著提升,更创造了AI发展史上的一个里程碑——它是首个参与自身开发的AI模型。OpenAI的Codex团队明确表示:GPT-5.3-Codex帮助构建了它自己。

核心亮点速览
  • SWE-Bench Pro:创下行业新高(多语言软件工程基准)
  • Terminal-Bench 2.0:相比前代提升约10%
  • 推理速度:提升25%,更高效完成编程任务
  • 自我构建:首个参与自身开发的AI模型

基准测试表现

SWE-Bench Pro - 软件工程能力

SWE-Bench Pro是一个多语言软件工程基准测试,评估AI在真实代码库中解决问题的能力。GPT-5.3-Codex在此测试中创下行业新高,展现了卓越的代码理解和修复能力。

SWE-Bench评测图表

Terminal-Bench 2.0 - 终端操作能力

Terminal-Bench 2.0衡量AI在终端环境中执行复杂任务的能力。GPT-5.3-Codex在此测试中比竞争对手高出约10%,特别擅长处理长时间、复杂的编程任务。

Terminal-Bench评测图表

OSWorld - 真实世界能力

GPT-5.3-Codex在OSWorld(操作系统任务)测试中也展现了强劲的真实世界任务处理能力

OSWorld评测图表

核心特性

25%速度提升

推理速度大幅提升,让开发者能够更快速地获得代码建议和完成任务。

中途引导

支持在任务执行过程中进行实时调整,让用户保持对AI行为的控制。

频繁进度更新

实时反馈任务状态,用户可以随时了解AI的工作进展。

代理式开发

能够自主完成复杂的多步骤任务,减少人工干预需求。

AI自我迭代的里程碑

💡
历史性突破:这是OpenAI首次发现其自有模型能够在自身开发过程中发挥重要作用。这意味着AI系统正在加速AI的发展进程,开启了一个全新的自我迭代时代。

与竞品对比

指标GPT-5.3-CodexClaude Opus 4.6
Terminal-Bench 2.0行业领先约低10%
SWE-Bench Pro行业新高竞争力强
推理速度提升25%-
上下文窗口-100万tokens
特色功能自我构建、中途引导Agent Teams

本文由加装AI助手整理发布 | 数据来源:OpenAI官方、ZDNet