OpenAI 发布 GPT-5.5:更聪明的旗舰模型,Agent 能力全面升级
OpenAI 发布 GPT-5.5:更聪明的旗舰模型,Agent 能力全面升级
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
4月23日,OpenAI正式发布GPT-5.5,称其为"迄今为止最聪明、最直觉化的模型"。这不是一次小修小补——GPT-5.5在编程、电脑操作、知识工作和科研推理上全面超越上一代GPT-5.4,而且速度完全不降。更关键的是,它不只是"回答问题更准",而是真正能自己干活:理解你要做什么,规划步骤,调用工具,检查结果,遇到歧义也不容易卡住。
GPT-5.5 到底强在哪?
OpenAI给出的核心定位很清楚:你给它一个"又乱又复杂"的多步任务,它不再需要你逐步指挥,而是自己规划、自己执行、自己验证。
具体提升体现在几个方向:
编程能力:在内部Expert-SWE测试中,GPT-5.5得分73.1%,GPT-5.4为68.5%。Terminal-Bench 2.0测试从75.1%提升到82.7%。对于写代码、调试代码、跑通整个项目来说,这个提升相当实在。
电脑操作:OSWorld测试(衡量AI操作软件的能力)从75.0%提升到78.7%。这意味着GPT-5.5更擅长跨软件完成任务——比如打开表格、填数据、发邮件、查信息,一整套流程它可以自己走完。
知识工作:GDPval测试84.9%(GPT-5.4为83.0%),涵盖数据分析、文档创建、在线研究等日常办公场景。
数学推理:FrontierMath Tier 1-3达到51.7%(GPT-5.4为47.6%),Tier 4更从27.1%跳到35.4%。这个Tier 4是最高难度的数学题,提升幅度超过8个百分点。
网络安全:CyberGym测试81.8%,比GPT-5.4的79.0%高出一截。
速度没有牺牲
通常更聪明的模型会更慢,但OpenAI特别强调:GPT-5.5在实际服务中的per-token延迟和GPT-5.4一样快。而且它完成相同Codex任务用的token更少——既聪明又省钱。
安全方面
OpenAI称GPT-5.5搭载了"至今最严格的安全措施":经过全套安全评估框架、内外部红队测试、针对网络安全和生物能力的专项测试,还有近200个早期合作伙伴的真实使用反馈。System Card也已同步发布,详细说明了各项安全措施。
谁能立刻用上?
- ChatGPT Plus、Pro、Business、Enterprise用户:GPT-5.5现已上线
- GPT-5.5 Pro:面向Pro、Business、Enterprise用户,在ChatGPT中可用
- API开发者:4月24日,GPT-5.5和GPT-5.5 Pro已开放API调用
对普通用户意味着什么?
最直观的变化是:你可以给ChatGPT更"模糊"的指令了。以前你可能需要一步步告诉AI"先查这个,再算那个,然后整理成表"——现在你直接说"帮我把这个项目的数据整理成一份报告",GPT-5.5会自己拆解任务、调用工具、检查结果。
编程助手的提升也很明显。如果你用过Codex或ChatGPT写代码,GPT-5.5能处理更复杂的项目、更长的调试链路,而不用你反复纠正方向。
需要注意什么
- 文中的Benchmark数据来自OpenAI官方,部分对比项(如Claude Opus 4.7 Pro和Gemini 3.1 Pro在某些测试中)未公布完整数据,实际效果还需用户和社区进一步验证。
- GPT-5.5 Pro的定价与GPT-5.4 Pro相同档位,但具体计费细节建议查看OpenAI官方定价页。
---
来源:
- OpenAI官方博客:https://openai.com/index/introducing-gpt-5-5/
- GPT-5.5 System Card:https://openai.com/index/gpt-5-5-system-card/
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。