ElevenLabs 发布 Dubbing v2：保留说话人情感的 AI 配音模型，支持 90+ 语言实时本地化

分类: 语音模型 |发布于: 5/30/2026 |最后更新: 5/30/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

5 月 28 日，ElevenLabs 正式发布 Dubbing v2——一个全新的 AI 配音模型，能在将语音翻译为 90 多种语言的同时，保留说话人原始的语调、节奏和情感表达。这标志着 AI 配音从"能听懂"迈向"能传情"的关键一步。

解决了什么问题

传统 AI 配音的工作流程是：先将语音转为文字，翻译文字，再用 TTS 合成目标语言的语音。这种"转录-翻译-合成"的管线式方法有一个根本缺陷——翻译后的语音往往丢失了原始录音中的情感线索、语气变化和节奏感，听起来像机器人在念稿。

Dubbing v2 采用了不同的技术路径：它直接基于源语音的表演特征（performance）生成目标语言配音，而非仅依赖转录文本。这意味着说话人的停顿、强调、情绪起伏等非文字信息能够被传递到翻译后的音频中。

核心技术能力

情感保留（Performance Transfer）：模型直接从源音频中提取说话人的表演特征——包括语调曲线、能量分布、情绪状态——并将这些特征映射到目标语言的语音生成过程中。

同步感知翻译（Sync-Aware Translation）：系统会自动调整翻译后的措辞和节奏，使其与源内容的时间线对齐。不同语言表达同一含义所需的音节数差异很大，这个系统能自动处理这种差异，减少后期手动调整的工作量。

90+ 语言和口音支持：覆盖主流和小众语言，每种语言都能保持说话人的个人特征。

谁会用到

内容创作者：通过 ElevenCreative 平台，创作者可以一键将视频本地化为多种语言版本，无需为每个市场单独录制。系统会保留创作者的个人风格和表达方式。

营销团队：品牌可以将广告、产品视频等营销素材快速本地化，同时保持跨语言的情感一致性和品牌调性。

大型媒体机构：ElevenLabs 为此推出了 ElevenProductions 服务，将 Dubbing v2 与专业本地化支持结合——AI 负责语音生成和同步，人工专家负责翻译审核、配音选角和音频混音。

获取方式与定价

ElevenCreative：面向创作者和团队的自助平台，Dubbing v2 已上线
ElevenProductions：面向企业的全流程服务，AI + 人工协作
Creator Dubbing Partner Program：为符合条件的创作者提供折扣价格
限时免费额度（发布后 7 天内）：Free 计划 1 分钟、Starter 计划 15 分钟、Creator+ 计划 30 分钟
API 接入：尚在开发中，预计稍后推出

当前限制

值得注意的是，Dubbing v2 目前仅通过 ElevenCreative 和 ElevenProductions 提供，API 尚未开放。对于需要批量集成的开发者来说，可能需要等待 API 版本上线。此外，虽然情感保留是核心卖点，但在极端情感表达（如哭泣、大笑）或高度口语化的内容上，实际效果仍需用户自行验证。

小结

ElevenLabs Dubbing v2 代表了 AI 配音技术的一次重要升级：从"翻译文字再念出来"进化到"直接传递说话人的表演"。对于需要多语言内容的创作者和企业来说，这可能是目前最接近专业配音效果的自动化方案。

参考来源

https://elevenlabs.io/blog/introducing-dubbing-v2

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。