OpenAI 同时发布三款实时语音 API 模型：GPT-Realtime-2 带 GPT-5 级语音推理，外加实时翻译和流式转录

分类: AI硬件设备 |发布于: 5/8/2026 |最后更新: 5/8/2026

5 月 7 日，OpenAI 在 API 中同时上线三款实时音频模型，语音交互正式从"你问我答"迈入"你说我办"。

5 月 7 日，OpenAI 在 API 中同时上线三款实时音频模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。这是开发者第一次能在同一个语音会话里，让 AI 同时完成"听懂你说什么、想清楚该怎么做、实时翻译、流式转录、调用工具执行操作"——语音交互正式从"你问我答"迈入"你说我办"。

三款模型，各有专长

GPT-Realtime-2 是这次更新的核心。它是 OpenAI 第一个具备 GPT-5 级推理能力的语音模型，专门为实时语音对话场景设计。和上一代相比，它带来了几个关键变化：

上下文窗口从 32K 扩大到 128K，能记住更长的对话历史，支持更复杂的多步骤任务流。
支持"过渡语"（preamble）：模型在处理请求时可以先说"让我查一下"或"稍等，我看看"，让用户知道 AI 正在工作，而不是沉默等待。
并行工具调用：模型可以同时调用多个工具，并用语音告知用户"正在查日历""正在查航班"，保持对话流畅。
5 档推理深度可调：从 minimal 到 xhigh，开发者可以根据场景在"低延迟"和"深度思考"之间灵活选择，low 为默认档。
更强的恢复和语气控制：遇到问题时会说"我暂时处理不了"而不是直接崩掉；可以根据场景调整语气——冷静处理问题、共情安抚情绪、热情确认操作。

GPT-Realtime-2 在 Big Bench Audio（音频推理评测）上比上一代 GPT-Realtime-1.5 高出 15.2%，在 Audio MultiChallenge（多轮对话指令跟随）上高出 13.8%。

GPT-Realtime-Translate 专注实时翻译：支持 70 多种输入语言，实时翻译成 13 种输出语言，速度跟得上说话人的节奏。

GPT-Realtime-Whisper 是流式语音转文字模型：你说话的同时，它就在转录，不需要等你说完。

从"你问我答"到"你说我办"

OpenAI 在博客中总结了语音 AI 的三种新模式：

语音→行动（Voice-to-action）：你用嘴描述需求，AI 理解、推理、调用工具、完成任务。Zillow 正在用它搭建房产助手——"帮我找符合预算的房子，避开繁忙街道，预约周六看房"，一句话搞定。
系统→语音（Systems-to-voice）：软件主动用语音告诉你情况。比如旅行 App 说："你到港航班延误了，但转机还来得及。我已经查了新登机口，规划了最快路线，行李也会正常转运。"
语音→语音（Voice-to-voice）：跨语言实时对话。Deutsche Telekom 正在用它搭建客服系统——客户说自己最习惯的语言，模型实时翻译整场对话。

Priceline 正在把三种模式组合起来：用语音搜索航班酒店、处理行程变更、回答 TSA 排队时间，落地后还能帮你翻译当地对话。

对开发者意味着什么

这次更新最实际的改变有三点：

128K 上下文让语音 Agent 能处理更长的任务链，不再中途"失忆"。
可调推理深度让你在简单场景用低档省延迟，复杂场景用高档做深度推理，不用换模型。
三模型组合覆盖了"听→想→翻译→转录→执行"全链路，开发者可以像搭积木一样组合出完整的语音产品。

当前局限

GPT-Realtime-2 的推理深度越高，延迟越大，xhigh 档位不适合对实时性要求极高的场景。
翻译模型的输出语言暂限 13 种，输入语言虽然支持 70+，但输出端还不够广。
三款模型都在 API 阶段，ChatGPT 消费端尚未集成。

语音 AI 正在从"能对话"走向"能办事"。GPT-Realtime-2 的工具调用和推理能力、实时翻译和流式转录的组合，意味着语音不再只是另一种输入方式——它正在成为 AI Agent 和人之间的主界面。

*基于 OpenAI 官方博客整理。*

参考来源

https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

基于 OpenAI 官方博客整理。