百度 ERNIE 团队开源 NAVA:一句话同时生成画面和声音,音视频对齐进入原生时代

分类: 视频模型 |发布于: 5/31/2026 |最后更新: 5/31/2026
百度 ERNIE 团队开源 NAVA:一句话同时生成画面和声音,音视频对齐进入原生时代

百度 ERNIE 团队开源 NAVA:一句话同时生成画面和声音,音视频对齐进入原生时代

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

百度 ERNIE Research 团队于 5 月 28 日在 arXiv 发布了 NAVA(Native Audio-Visual Alignment),这是一个能从单条文本提示同时生成同步视频和音频的开源模型。与此前需要先生成视频、再单独配音的两步流程不同,NAVA 在生成过程中就让画面和声音"天然对齐"——这是该类别中首个做到这一点的开源框架。

现有方案的痛点

目前开源的音视频联合生成方法主要有两条路线:

  • 双塔设计 + 后对齐:视频和音频各自生成,再通过后处理对齐。问题是细粒度的音画同步很难保证——嘴型对不上声音、脚步声和动作错拍是常见问题。
  • 三模态统一设计:把文本、音频、视频全部塞进同一个共享空间。问题是语义理解和底层同步耦合在一起,模型既要理解"说什么"又要处理"怎么对齐",两头都做不精。

NAVA 的思路是把这两件事拆开:先在专用交互空间建立音视频对应关系,再用外部上下文条件来引导联合去噪过程。

技术架构:Align-then-Fuse MMDiT

NAVA 的核心架构叫 Align-then-Fuse MMDiT(多模态扩散 Transformer),分两个阶段工作:

  1. 对齐阶段:在模态感知的交互空间中,让音频和视频的表征先建立时序对应关系
  2. 融合阶段:切换到模态共享的联合去噪,同时生成最终的视频帧和音频波形

这种设计让模型在保持细粒度同步的同时,不会把语义条件和底层对齐混为一谈。

可控语音音色

NAVA 还引入了 Timbre-in-Context Conditioning 机制:你可以提供参考音色线索,模型会把特定音色与对应的语音片段关联起来。这意味着生成的视频中,不同角色可以有不同的声音特征,而且音色是可控的。

规格与开源

  • 参数量:6.3B
  • 输出:720p 视频 + 立体声音频
  • 许可证:Apache 2.0(允许商用)
  • 权重:HuggingFace ernie-research/NAVA
  • 论文:arXiv 2605.30073

在 Verse-Bench 和 Seed-TTS 基准测试以及用户研究中,NAVA 在视频质量、音视频同步精度、音频质量和音色可控性方面均表现优异。

谁会用到

  • 短视频创作者:一句话生成带配音的短片,不再需要分别处理画面和声音
  • 有声内容制作:播客可视化、有声书配图、教育内容
  • 游戏/动画:过场动画的快速原型,角色对话场景
  • 研究者:Apache 2.0 许可意味着可以自由修改和商用

当前局限

论文未明确公布单次生成的最大时长和帧率上限。作为 6.3B 参数的模型,本地推理对显存有一定要求。目前主要验证场景集中在人物说话和环境音效,复杂多角色长叙事场景的表现有待社区进一步测试。

小结

NAVA 把"先生成再配音"的两步流程压缩成了一步,让音视频对齐从后处理变成了生成过程的原生属性。对于需要音画同步的内容创作场景,这是一个值得关注的新选项。

---

*本文基于 arXiv 论文及多家媒体转述整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。