OpenAI 发布 GPT-5.5:更聪明的旗舰模型,Agent 能力全面升级

分类: AI未开源软件工具 |发布于: 4/25/2026 |最后更新: 4/25/2026
OpenAI 发布 GPT-5.5:更聪明的旗舰模型,Agent 能力全面升级

OpenAI 发布 GPT-5.5:更聪明的旗舰模型,Agent 能力全面升级

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

4月23日,OpenAI正式发布GPT-5.5,称其为"迄今为止最聪明、最直觉化的模型"。这不是一次小修小补——GPT-5.5在编程、电脑操作、知识工作和科研推理上全面超越上一代GPT-5.4,而且速度完全不降。更关键的是,它不只是"回答问题更准",而是真正能自己干活:理解你要做什么,规划步骤,调用工具,检查结果,遇到歧义也不容易卡住。

GPT-5.5 到底强在哪?

OpenAI给出的核心定位很清楚:你给它一个"又乱又复杂"的多步任务,它不再需要你逐步指挥,而是自己规划、自己执行、自己验证。

具体提升体现在几个方向:

编程能力:在内部Expert-SWE测试中,GPT-5.5得分73.1%,GPT-5.4为68.5%。Terminal-Bench 2.0测试从75.1%提升到82.7%。对于写代码、调试代码、跑通整个项目来说,这个提升相当实在。

电脑操作:OSWorld测试(衡量AI操作软件的能力)从75.0%提升到78.7%。这意味着GPT-5.5更擅长跨软件完成任务——比如打开表格、填数据、发邮件、查信息,一整套流程它可以自己走完。

知识工作:GDPval测试84.9%(GPT-5.4为83.0%),涵盖数据分析、文档创建、在线研究等日常办公场景。

数学推理:FrontierMath Tier 1-3达到51.7%(GPT-5.4为47.6%),Tier 4更从27.1%跳到35.4%。这个Tier 4是最高难度的数学题,提升幅度超过8个百分点。

网络安全:CyberGym测试81.8%,比GPT-5.4的79.0%高出一截。

速度没有牺牲

通常更聪明的模型会更慢,但OpenAI特别强调:GPT-5.5在实际服务中的per-token延迟和GPT-5.4一样快。而且它完成相同Codex任务用的token更少——既聪明又省钱。

安全方面

OpenAI称GPT-5.5搭载了"至今最严格的安全措施":经过全套安全评估框架、内外部红队测试、针对网络安全和生物能力的专项测试,还有近200个早期合作伙伴的真实使用反馈。System Card也已同步发布,详细说明了各项安全措施。

谁能立刻用上?

  • ChatGPT Plus、Pro、Business、Enterprise用户:GPT-5.5现已上线
  • GPT-5.5 Pro:面向Pro、Business、Enterprise用户,在ChatGPT中可用
  • API开发者:4月24日,GPT-5.5和GPT-5.5 Pro已开放API调用

对普通用户意味着什么?

最直观的变化是:你可以给ChatGPT更"模糊"的指令了。以前你可能需要一步步告诉AI"先查这个,再算那个,然后整理成表"——现在你直接说"帮我把这个项目的数据整理成一份报告",GPT-5.5会自己拆解任务、调用工具、检查结果。

编程助手的提升也很明显。如果你用过Codex或ChatGPT写代码,GPT-5.5能处理更复杂的项目、更长的调试链路,而不用你反复纠正方向。

需要注意什么

  • 文中的Benchmark数据来自OpenAI官方,部分对比项(如Claude Opus 4.7 Pro和Gemini 3.1 Pro在某些测试中)未公布完整数据,实际效果还需用户和社区进一步验证。
  • GPT-5.5 Pro的定价与GPT-5.4 Pro相同档位,但具体计费细节建议查看OpenAI官方定价页。

---

来源:

  • OpenAI官方博客:https://openai.com/index/introducing-gpt-5-5/
  • GPT-5.5 System Card:https://openai.com/index/gpt-5-5-system-card/

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。