Inworld AI 发布 Realtime TTS-2:为实时对话而生,自然语言控制语气,100+语言跨语种保持音色

分类: 语音模型 |发布于: 5/8/2026 |最后更新: 5/8/2026
Inworld AI 发布 Realtime TTS-2:为实时对话而生,自然语言控制语气,100+语言跨语种保持音色

Inworld AI 发布 Realtime TTS-2:为实时对话而生,自然语言控制语气,100+语言跨语种保持音色

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

5 月 5 日,Inworld AI 发布了 Realtime TTS-2,一款从零开始为实时语音对话场景设计的 TTS 模型。和传统 TTS 不同,它不是"给文本加声音"的工具,而是一个能听到对方语气、理解情绪、用自然语言指挥声音表现、跨 100 多种语言切换还保持同一个人音色的对话引擎——四项能力跑在同一个实时连接上。

这是什么

Realtime TTS-2 是 Inworld AI 的第二代语音模型,以 Research Preview 形式上线。它通过 Inworld API 和 Inworld Realtime API 对外提供服务。上一代 TTS 1.5 的客户只需把 model identifier 改成新值就能升级,不用改其他代码。

定位很明确:这不是一个通用 TTS 引擎,而是专门为"人跟 AI 实时聊天"这个场景设计的。它关注的不是单句语音的质量,而是整场对话中声音的连贯性和表现力。

四项能力合一,不是一个套件

Realtime TTS-2 的核心卖点不是某一个单项能力,而是四项能力在同一个模型、同一个实时连接中协同工作:

情绪感知:模型能听到完整音频上下文——不只是你说的话,还有你说话的方式。语气、节奏、情感状态都会被捕捉,并带进后续回应中。你听起来着急,它的回应也会加快节奏;你平静下来,它也会放缓。

自然语言声音控制:开发者不再需要调整一堆声学参数,而是用英语描述想要的效果——"用温柔的语气,带一点犹豫""用新闻主播那种沉稳的声调"。模型像演员接受导演指导一样执行这些描述。

跨语种保持音色:在 100 多种语言中实时切换时,说话人的音色身份不会丢失。也就是说,同一个人可以在一句英语后紧接着说日语,听起来还是同一个人——不需要为每种语言训练不同的声音。不过 Inworld 也坦诚:头部语言是母语级质量,长尾语言在 Research Preview 阶段仍属实验水平。

高级声音设计:不需要录音参考,用文字描述就能生成一个可保存的声音人格。比如"30 岁南方口音的女性,适合播客风格",系统会创造一个符合描述的全新声音。

语音克隆:两步 API

除了从文字创建声音,Realtime TTS-2 也支持语音克隆——把一个真实声音带进来:

  1. 上传 5-15 秒参考音频(要求干净、单人说话),调用 /voices/v1/voices:clone 端点
  2. 获取返回的 voice_id,在后续 TTS 调用中像其他声音一样使用

Inworld 特别建议:从原始录音克隆比从其他模型的输出克隆保真度更高——二次转码会损失细节。

其他细节

  • 非语言标记:支持笑声、停顿等内联标记,让语音更自然
  • 不流畅表达:适度加入"嗯""啊"等自然停顿,避免机器感
  • 稳定性模式:Expressive(表现力优先)、Balanced(平衡)、Stable(稳定)三档可调,控制声音的"放开"程度

适合什么场景

  • 游戏 NPC 对话:角色在多语言场景中保持自己的声音身份,情绪感知让对话更有"活人感"
  • 虚拟主播和数字人:一个声音走全球,跨语言内容不用换声音
  • 客服系统:感知来电者情绪,自动调整回应语气——急躁的客户用更简短直接的回应,平静的客户可以多聊几句
  • 语音助手:从"问一句答一句"进化为"聊一整场",上下文感知让对话不像在跟机器说话

局限

  • Research Preview:模型还在早期阶段,100+ 语言中长尾语言的质量标注为"实验性",不保证生产级稳定
  • 语音克隆条件更苛刻:需要 5-15 秒干净音频,对比竞品(如 Mistral Voxtral 的 3 秒)门槛更高
  • 非开源:只能通过 Inworld API 使用,无法自部署,数据要过 Inworld 的服务器
  • 定价:需参考 inworld.ai/pricing,对个人开发者和小团队来说成本可能偏高
  • 自然语言控制的语言限制:声音控制指令目前主要支持英语描述,其他语言的指令效果未明确

---

*基于 Inworld AI 官方博客(2026 年 5 月 5 日)整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。