ElevenLabs 发布 Dubbing v2:保留说话人情感的 AI 配音模型,支持 90+ 语言实时本地化

分类: 语音模型 |发布于: 5/30/2026 |最后更新: 5/30/2026
ElevenLabs 发布 Dubbing v2:保留说话人情感的 AI 配音模型,支持 90+ 语言实时本地化

ElevenLabs 发布 Dubbing v2:保留说话人情感的 AI 配音模型,支持 90+ 语言实时本地化

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

5 月 28 日,ElevenLabs 正式发布 Dubbing v2——一个全新的 AI 配音模型,能在将语音翻译为 90 多种语言的同时,保留说话人原始的语调、节奏和情感表达。这标志着 AI 配音从"能听懂"迈向"能传情"的关键一步。

解决了什么问题

传统 AI 配音的工作流程是:先将语音转为文字,翻译文字,再用 TTS 合成目标语言的语音。这种"转录-翻译-合成"的管线式方法有一个根本缺陷——翻译后的语音往往丢失了原始录音中的情感线索、语气变化和节奏感,听起来像机器人在念稿。

Dubbing v2 采用了不同的技术路径:它直接基于源语音的表演特征(performance)生成目标语言配音,而非仅依赖转录文本。这意味着说话人的停顿、强调、情绪起伏等非文字信息能够被传递到翻译后的音频中。

核心技术能力

情感保留(Performance Transfer):模型直接从源音频中提取说话人的表演特征——包括语调曲线、能量分布、情绪状态——并将这些特征映射到目标语言的语音生成过程中。

同步感知翻译(Sync-Aware Translation):系统会自动调整翻译后的措辞和节奏,使其与源内容的时间线对齐。不同语言表达同一含义所需的音节数差异很大,这个系统能自动处理这种差异,减少后期手动调整的工作量。

90+ 语言和口音支持:覆盖主流和小众语言,每种语言都能保持说话人的个人特征。

谁会用到

内容创作者:通过 ElevenCreative 平台,创作者可以一键将视频本地化为多种语言版本,无需为每个市场单独录制。系统会保留创作者的个人风格和表达方式。

营销团队:品牌可以将广告、产品视频等营销素材快速本地化,同时保持跨语言的情感一致性和品牌调性。

大型媒体机构:ElevenLabs 为此推出了 ElevenProductions 服务,将 Dubbing v2 与专业本地化支持结合——AI 负责语音生成和同步,人工专家负责翻译审核、配音选角和音频混音。

获取方式与定价

  • ElevenCreative:面向创作者和团队的自助平台,Dubbing v2 已上线
  • ElevenProductions:面向企业的全流程服务,AI + 人工协作
  • Creator Dubbing Partner Program:为符合条件的创作者提供折扣价格
  • 限时免费额度(发布后 7 天内):Free 计划 1 分钟、Starter 计划 15 分钟、Creator+ 计划 30 分钟
  • API 接入:尚在开发中,预计稍后推出

当前限制

值得注意的是,Dubbing v2 目前仅通过 ElevenCreative 和 ElevenProductions 提供,API 尚未开放。对于需要批量集成的开发者来说,可能需要等待 API 版本上线。此外,虽然情感保留是核心卖点,但在极端情感表达(如哭泣、大笑)或高度口语化的内容上,实际效果仍需用户自行验证。

小结

ElevenLabs Dubbing v2 代表了 AI 配音技术的一次重要升级:从"翻译文字再念出来"进化到"直接传递说话人的表演"。对于需要多语言内容的创作者和企业来说,这可能是目前最接近专业配音效果的自动化方案。

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。