OpenAI 发布 GPT-5.5：更聪明的旗舰模型，Agent 能力全面升级

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

4月23日，OpenAI正式发布GPT-5.5，称其为"迄今为止最聪明、最直觉化的模型"。这不是一次小修小补——GPT-5.5在编程、电脑操作、知识工作和科研推理上全面超越上一代GPT-5.4，而且速度完全不降。更关键的是，它不只是"回答问题更准"，而是真正能自己干活：理解你要做什么，规划步骤，调用工具，检查结果，遇到歧义也不容易卡住。

GPT-5.5 到底强在哪？

OpenAI给出的核心定位很清楚：你给它一个"又乱又复杂"的多步任务，它不再需要你逐步指挥，而是自己规划、自己执行、自己验证。

具体提升体现在几个方向：

编程能力：在内部Expert-SWE测试中，GPT-5.5得分73.1%，GPT-5.4为68.5%。Terminal-Bench 2.0测试从75.1%提升到82.7%。对于写代码、调试代码、跑通整个项目来说，这个提升相当实在。

电脑操作：OSWorld测试（衡量AI操作软件的能力）从75.0%提升到78.7%。这意味着GPT-5.5更擅长跨软件完成任务——比如打开表格、填数据、发邮件、查信息，一整套流程它可以自己走完。

知识工作：GDPval测试84.9%（GPT-5.4为83.0%），涵盖数据分析、文档创建、在线研究等日常办公场景。

数学推理：FrontierMath Tier 1-3达到51.7%（GPT-5.4为47.6%），Tier 4更从27.1%跳到35.4%。这个Tier 4是最高难度的数学题，提升幅度超过8个百分点。

网络安全：CyberGym测试81.8%，比GPT-5.4的79.0%高出一截。

速度没有牺牲

通常更聪明的模型会更慢，但OpenAI特别强调：GPT-5.5在实际服务中的per-token延迟和GPT-5.4一样快。而且它完成相同Codex任务用的token更少——既聪明又省钱。

安全方面

OpenAI称GPT-5.5搭载了"至今最严格的安全措施"：经过全套安全评估框架、内外部红队测试、针对网络安全和生物能力的专项测试，还有近200个早期合作伙伴的真实使用反馈。System Card也已同步发布，详细说明了各项安全措施。

谁能立刻用上？

ChatGPT Plus、Pro、Business、Enterprise用户：GPT-5.5现已上线
GPT-5.5 Pro：面向Pro、Business、Enterprise用户，在ChatGPT中可用
API开发者：4月24日，GPT-5.5和GPT-5.5 Pro已开放API调用

对普通用户意味着什么？

最直观的变化是：你可以给ChatGPT更"模糊"的指令了。以前你可能需要一步步告诉AI"先查这个，再算那个，然后整理成表"——现在你直接说"帮我把这个项目的数据整理成一份报告"，GPT-5.5会自己拆解任务、调用工具、检查结果。

编程助手的提升也很明显。如果你用过Codex或ChatGPT写代码，GPT-5.5能处理更复杂的项目、更长的调试链路，而不用你反复纠正方向。

需要注意什么

文中的Benchmark数据来自OpenAI官方，部分对比项（如Claude Opus 4.7 Pro和Gemini 3.1 Pro在某些测试中）未公布完整数据，实际效果还需用户和社区进一步验证。
GPT-5.5 Pro的定价与GPT-5.4 Pro相同档位，但具体计费细节建议查看OpenAI官方定价页。

---

来源：

OpenAI官方博客：https://openai.com/index/introducing-gpt-5-5/
GPT-5.5 System Card：https://openai.com/index/gpt-5-5-system-card/

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。