百度 ERNIE 团队开源 NAVA:一句话同时生成画面和声音,音视频对齐进入原生时代
百度 ERNIE 团队开源 NAVA:一句话同时生成画面和声音,音视频对齐进入原生时代
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
百度 ERNIE Research 团队于 5 月 28 日在 arXiv 发布了 NAVA(Native Audio-Visual Alignment),这是一个能从单条文本提示同时生成同步视频和音频的开源模型。与此前需要先生成视频、再单独配音的两步流程不同,NAVA 在生成过程中就让画面和声音"天然对齐"——这是该类别中首个做到这一点的开源框架。
现有方案的痛点
目前开源的音视频联合生成方法主要有两条路线:
- 双塔设计 + 后对齐:视频和音频各自生成,再通过后处理对齐。问题是细粒度的音画同步很难保证——嘴型对不上声音、脚步声和动作错拍是常见问题。
- 三模态统一设计:把文本、音频、视频全部塞进同一个共享空间。问题是语义理解和底层同步耦合在一起,模型既要理解"说什么"又要处理"怎么对齐",两头都做不精。
NAVA 的思路是把这两件事拆开:先在专用交互空间建立音视频对应关系,再用外部上下文条件来引导联合去噪过程。
技术架构:Align-then-Fuse MMDiT
NAVA 的核心架构叫 Align-then-Fuse MMDiT(多模态扩散 Transformer),分两个阶段工作:
- 对齐阶段:在模态感知的交互空间中,让音频和视频的表征先建立时序对应关系
- 融合阶段:切换到模态共享的联合去噪,同时生成最终的视频帧和音频波形
这种设计让模型在保持细粒度同步的同时,不会把语义条件和底层对齐混为一谈。
可控语音音色
NAVA 还引入了 Timbre-in-Context Conditioning 机制:你可以提供参考音色线索,模型会把特定音色与对应的语音片段关联起来。这意味着生成的视频中,不同角色可以有不同的声音特征,而且音色是可控的。
规格与开源
- 参数量:6.3B
- 输出:720p 视频 + 立体声音频
- 许可证:Apache 2.0(允许商用)
- 权重:HuggingFace
ernie-research/NAVA - 论文:arXiv 2605.30073
在 Verse-Bench 和 Seed-TTS 基准测试以及用户研究中,NAVA 在视频质量、音视频同步精度、音频质量和音色可控性方面均表现优异。
谁会用到
- 短视频创作者:一句话生成带配音的短片,不再需要分别处理画面和声音
- 有声内容制作:播客可视化、有声书配图、教育内容
- 游戏/动画:过场动画的快速原型,角色对话场景
- 研究者:Apache 2.0 许可意味着可以自由修改和商用
当前局限
论文未明确公布单次生成的最大时长和帧率上限。作为 6.3B 参数的模型,本地推理对显存有一定要求。目前主要验证场景集中在人物说话和环境音效,复杂多角色长叙事场景的表现有待社区进一步测试。
小结
NAVA 把"先生成再配音"的两步流程压缩成了一步,让音视频对齐从后处理变成了生成过程的原生属性。对于需要音画同步的内容创作场景,这是一个值得关注的新选项。
---
*本文基于 arXiv 论文及多家媒体转述整理。*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。