百度 ERNIE 团队开源 NAVA：一句话同时生成画面和声音，音视频对齐进入原生时代

分类: 视频模型 |发布于: 5/31/2026 |最后更新: 5/31/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

百度 ERNIE Research 团队于 5 月 28 日在 arXiv 发布了 NAVA（Native Audio-Visual Alignment），这是一个能从单条文本提示同时生成同步视频和音频的开源模型。与此前需要先生成视频、再单独配音的两步流程不同，NAVA 在生成过程中就让画面和声音"天然对齐"——这是该类别中首个做到这一点的开源框架。

现有方案的痛点

目前开源的音视频联合生成方法主要有两条路线：

双塔设计 + 后对齐：视频和音频各自生成，再通过后处理对齐。问题是细粒度的音画同步很难保证——嘴型对不上声音、脚步声和动作错拍是常见问题。
三模态统一设计：把文本、音频、视频全部塞进同一个共享空间。问题是语义理解和底层同步耦合在一起，模型既要理解"说什么"又要处理"怎么对齐"，两头都做不精。

NAVA 的思路是把这两件事拆开：先在专用交互空间建立音视频对应关系，再用外部上下文条件来引导联合去噪过程。

技术架构：Align-then-Fuse MMDiT

NAVA 的核心架构叫 Align-then-Fuse MMDiT（多模态扩散 Transformer），分两个阶段工作：

对齐阶段：在模态感知的交互空间中，让音频和视频的表征先建立时序对应关系
融合阶段：切换到模态共享的联合去噪，同时生成最终的视频帧和音频波形

这种设计让模型在保持细粒度同步的同时，不会把语义条件和底层对齐混为一谈。

可控语音音色

NAVA 还引入了 Timbre-in-Context Conditioning 机制：你可以提供参考音色线索，模型会把特定音色与对应的语音片段关联起来。这意味着生成的视频中，不同角色可以有不同的声音特征，而且音色是可控的。

规格与开源

参数量：6.3B
输出：720p 视频 + 立体声音频
许可证：Apache 2.0（允许商用）
权重：HuggingFace ernie-research/NAVA
论文：arXiv 2605.30073

在 Verse-Bench 和 Seed-TTS 基准测试以及用户研究中，NAVA 在视频质量、音视频同步精度、音频质量和音色可控性方面均表现优异。

谁会用到

短视频创作者：一句话生成带配音的短片，不再需要分别处理画面和声音
有声内容制作：播客可视化、有声书配图、教育内容
游戏/动画：过场动画的快速原型，角色对话场景
研究者：Apache 2.0 许可意味着可以自由修改和商用

当前局限

论文未明确公布单次生成的最大时长和帧率上限。作为 6.3B 参数的模型，本地推理对显存有一定要求。目前主要验证场景集中在人物说话和环境音效，复杂多角色长叙事场景的表现有待社区进一步测试。

小结

NAVA 把"先生成再配音"的两步流程压缩成了一步，让音视频对齐从后处理变成了生成过程的原生属性。对于需要音画同步的内容创作场景，这是一个值得关注的新选项。

---

*本文基于 arXiv 论文及多家媒体转述整理。*

参考来源

https://arxiv.org/abs/2605.30073

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。