Inworld AI 发布 Realtime TTS-2：为实时对话而生，自然语言控制语气，100+语言跨语种保持音色

分类: 语音模型 |发布于: 5/8/2026 |最后更新: 5/8/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

5 月 5 日，Inworld AI 发布了 Realtime TTS-2，一款从零开始为实时语音对话场景设计的 TTS 模型。和传统 TTS 不同，它不是"给文本加声音"的工具，而是一个能听到对方语气、理解情绪、用自然语言指挥声音表现、跨 100 多种语言切换还保持同一个人音色的对话引擎——四项能力跑在同一个实时连接上。

这是什么

Realtime TTS-2 是 Inworld AI 的第二代语音模型，以 Research Preview 形式上线。它通过 Inworld API 和 Inworld Realtime API 对外提供服务。上一代 TTS 1.5 的客户只需把 model identifier 改成新值就能升级，不用改其他代码。

定位很明确：这不是一个通用 TTS 引擎，而是专门为"人跟 AI 实时聊天"这个场景设计的。它关注的不是单句语音的质量，而是整场对话中声音的连贯性和表现力。

四项能力合一，不是一个套件

Realtime TTS-2 的核心卖点不是某一个单项能力，而是四项能力在同一个模型、同一个实时连接中协同工作：

情绪感知：模型能听到完整音频上下文——不只是你说的话，还有你说话的方式。语气、节奏、情感状态都会被捕捉，并带进后续回应中。你听起来着急，它的回应也会加快节奏；你平静下来，它也会放缓。

自然语言声音控制：开发者不再需要调整一堆声学参数，而是用英语描述想要的效果——"用温柔的语气，带一点犹豫""用新闻主播那种沉稳的声调"。模型像演员接受导演指导一样执行这些描述。

跨语种保持音色：在 100 多种语言中实时切换时，说话人的音色身份不会丢失。也就是说，同一个人可以在一句英语后紧接着说日语，听起来还是同一个人——不需要为每种语言训练不同的声音。不过 Inworld 也坦诚：头部语言是母语级质量，长尾语言在 Research Preview 阶段仍属实验水平。

高级声音设计：不需要录音参考，用文字描述就能生成一个可保存的声音人格。比如"30 岁南方口音的女性，适合播客风格"，系统会创造一个符合描述的全新声音。

语音克隆：两步 API

除了从文字创建声音，Realtime TTS-2 也支持语音克隆——把一个真实声音带进来：

上传 5-15 秒参考音频（要求干净、单人说话），调用 /voices/v1/voices:clone 端点
获取返回的 voice_id，在后续 TTS 调用中像其他声音一样使用

Inworld 特别建议：从原始录音克隆比从其他模型的输出克隆保真度更高——二次转码会损失细节。

其他细节

非语言标记：支持笑声、停顿等内联标记，让语音更自然
不流畅表达：适度加入"嗯""啊"等自然停顿，避免机器感
稳定性模式：Expressive（表现力优先）、Balanced（平衡）、Stable（稳定）三档可调，控制声音的"放开"程度

适合什么场景

游戏 NPC 对话：角色在多语言场景中保持自己的声音身份，情绪感知让对话更有"活人感"
虚拟主播和数字人：一个声音走全球，跨语言内容不用换声音
客服系统：感知来电者情绪，自动调整回应语气——急躁的客户用更简短直接的回应，平静的客户可以多聊几句
语音助手：从"问一句答一句"进化为"聊一整场"，上下文感知让对话不像在跟机器说话

局限

Research Preview：模型还在早期阶段，100+ 语言中长尾语言的质量标注为"实验性"，不保证生产级稳定
语音克隆条件更苛刻：需要 5-15 秒干净音频，对比竞品（如 Mistral Voxtral 的 3 秒）门槛更高
非开源：只能通过 Inworld API 使用，无法自部署，数据要过 Inworld 的服务器
定价：需参考 inworld.ai/pricing，对个人开发者和小团队来说成本可能偏高
自然语言控制的语言限制：声音控制指令目前主要支持英语描述，其他语言的指令效果未明确

---

*基于 Inworld AI 官方博客（2026 年 5 月 5 日）整理。*

参考来源

https://inworld.ai/blog/realtime-tts-2

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。