OpenAI 同时发布三款实时语音 API 模型:GPT-Realtime-2 带 GPT-5 级语音推理,外加实时翻译和流式转录
OpenAI 同时发布三款实时语音 API 模型:GPT-Realtime-2 带 GPT-5 级语音推理,外加实时翻译和流式转录
5 月 7 日,OpenAI 在 API 中同时上线三款实时音频模型,语音交互正式从"你问我答"迈入"你说我办"。
5 月 7 日,OpenAI 在 API 中同时上线三款实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。这是开发者第一次能在同一个语音会话里,让 AI 同时完成"听懂你说什么、想清楚该怎么做、实时翻译、流式转录、调用工具执行操作"——语音交互正式从"你问我答"迈入"你说我办"。
三款模型,各有专长
GPT-Realtime-2 是这次更新的核心。它是 OpenAI 第一个具备 GPT-5 级推理能力的语音模型,专门为实时语音对话场景设计。和上一代相比,它带来了几个关键变化:
- 上下文窗口从 32K 扩大到 128K,能记住更长的对话历史,支持更复杂的多步骤任务流。
- 支持"过渡语"(preamble):模型在处理请求时可以先说"让我查一下"或"稍等,我看看",让用户知道 AI 正在工作,而不是沉默等待。
- 并行工具调用:模型可以同时调用多个工具,并用语音告知用户"正在查日历""正在查航班",保持对话流畅。
- 5 档推理深度可调:从 minimal 到 xhigh,开发者可以根据场景在"低延迟"和"深度思考"之间灵活选择,low 为默认档。
- 更强的恢复和语气控制:遇到问题时会说"我暂时处理不了"而不是直接崩掉;可以根据场景调整语气——冷静处理问题、共情安抚情绪、热情确认操作。
GPT-Realtime-2 在 Big Bench Audio(音频推理评测)上比上一代 GPT-Realtime-1.5 高出 15.2%,在 Audio MultiChallenge(多轮对话指令跟随)上高出 13.8%。
GPT-Realtime-Translate 专注实时翻译:支持 70 多种输入语言,实时翻译成 13 种输出语言,速度跟得上说话人的节奏。
GPT-Realtime-Whisper 是流式语音转文字模型:你说话的同时,它就在转录,不需要等你说完。
从"你问我答"到"你说我办"
OpenAI 在博客中总结了语音 AI 的三种新模式:
- 语音→行动(Voice-to-action):你用嘴描述需求,AI 理解、推理、调用工具、完成任务。Zillow 正在用它搭建房产助手——"帮我找符合预算的房子,避开繁忙街道,预约周六看房",一句话搞定。
- 系统→语音(Systems-to-voice):软件主动用语音告诉你情况。比如旅行 App 说:"你到港航班延误了,但转机还来得及。我已经查了新登机口,规划了最快路线,行李也会正常转运。"
- 语音→语音(Voice-to-voice):跨语言实时对话。Deutsche Telekom 正在用它搭建客服系统——客户说自己最习惯的语言,模型实时翻译整场对话。
Priceline 正在把三种模式组合起来:用语音搜索航班酒店、处理行程变更、回答 TSA 排队时间,落地后还能帮你翻译当地对话。
对开发者意味着什么
这次更新最实际的改变有三点:
- 128K 上下文让语音 Agent 能处理更长的任务链,不再中途"失忆"。
- 可调推理深度让你在简单场景用低档省延迟,复杂场景用高档做深度推理,不用换模型。
- 三模型组合覆盖了"听→想→翻译→转录→执行"全链路,开发者可以像搭积木一样组合出完整的语音产品。
当前局限
- GPT-Realtime-2 的推理深度越高,延迟越大,xhigh 档位不适合对实时性要求极高的场景。
- 翻译模型的输出语言暂限 13 种,输入语言虽然支持 70+,但输出端还不够广。
- 三款模型都在 API 阶段,ChatGPT 消费端尚未集成。
语音 AI 正在从"能对话"走向"能办事"。GPT-Realtime-2 的工具调用和推理能力、实时翻译和流式转录的组合,意味着语音不再只是另一种输入方式——它正在成为 AI Agent 和人之间的主界面。
*基于 OpenAI 官方博客整理。*
参考来源
基于 OpenAI 官方博客整理。