NVIDIA 开源 SANA-WM:2.6B 参数世界模型,单卡生成一分钟 720p 可控运镜视频
NVIDIA 开源 SANA-WM:2.6B 参数世界模型,单卡生成一分钟 720p 可控运镜视频
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
5月16日,NVIDIA 发布 SANA-WM——一个 2.6B 参数的开源世界模型,能在单张 RTX 5090 上用 34 秒生成 60 秒的 720p 视频,并支持精确的 6 自由度(6-DoF)相机轨迹控制。代码和权重通过 NVlabs/Sana GitHub 仓库开源(Apache 2.0)。
世界模型为什么难做到"分钟级 + 单卡"
世界模型(World Model)是从一张初始图像加一组动作指令出发,合成逼真视频序列的系统。它是具身 AI、机器人仿真、自动驾驶训练的核心基础设施。
但现有开源世界模型面临三个瓶颈:
- 多卡才能跑:生成分钟级视频需要处理近千帧隐空间序列,标准 softmax 注意力的显存和计算量随序列长度二次增长,单卡根本装不下
- 时长受限:大多数模型只能生成 5-15 秒片段,超过这个长度画面就开始漂移、失真
- 相机控制粗糙:文本描述"向左平移"和精确的 6-DoF 轨迹是两回事,前者不可复现,后者才是仿真和影视预览需要的
SANA-WM 同时解决了这三个问题。
四个核心设计决策
1. 混合线性注意力:分钟级序列不爆显存
SANA-WM 用帧级 Gated DeltaNet(GDN)替代了大部分 softmax 注意力块。GDN 的关键特性:
- 恒定状态大小:不管视频多长,循环状态始终是 D×D 矩阵,显存不随帧数增长
- 衰减门控:旧帧信息会被逐步衰减,避免分钟级序列中早期帧的"幽灵残留"导致画面漂移
- Delta 规则修正:只更新当前预测和目标之间的残差,提高状态利用效率
为了训练稳定性,团队引入了代数键缩放(1/√(D·S)),彻底消除了标准归一化方案在长序列训练中出现的 NaN 发散问题。
最终骨干网络由 20 个 Transformer 块组成:15 个 GDN 块 + 5 个 softmax 注意力块(分布在第 3/7/11/15/19 层)。softmax 块提供精确的长程回忆能力,GDN 块负责高效的序列推进。
2. 双分支相机控制:粗细结合跟住 6-DoF 轨迹
精确的相机控制需要模型忠实跟随连续的 6-DoF 轨迹,而不只是理解"镜头向右推"这种文本描述。SANA-WM 用两个互补分支实现:
粗分支(UCPE 注意力):在隐帧率上工作。对每个隐空间 token,从相机到世界的位姿和内参中计算射线局部相机基,然后对注意力头的几何通道施加统一相机位置编码(UCPE)。捕捉全序列的全局轨迹结构。
细分支(Plücker 混合):解决压缩失配问题。每个隐空间 token 实际上概括了 8 个原始帧,每帧有自己的相机位姿。细分支从这 8 帧中计算逐像素的 Plücker 射线图(6D 表示),打包成 48 通道张量,通过零初始化投影注入每个自注意力输出之后。这恢复了粗分支在隐帧分辨率下看不到的帧内相机运动。
消融实验显示:仅用 UCPE 的 CamMC 为 0.2453,双分支达到 0.2047——在所有对比方法中最优,包括参数量 5 倍以上的模型。
3. 两阶段生成管线:refiner 修正长程漂移
Stage-1 SANA-WM 的输出在时空一致性上已经不错,但长序列仍会出现结构性伪影。第二阶段 refiner 基于 17B LTX-2 模型,加上 rank-384 LoRA 适配器微调。
工作方式:对 stage-1 的隐空间输出加入大噪声(σ_start=0.9),refiner 学习从这个噪声输入映射到高保真目标。推理时只需 3 步 Euler 去噪。
效果:Hard 轨迹上的视觉漂移指标 ΔIQ 从 3.09 降到 0.31——几乎消除了长程画面退化。
4. 数据标注管线
训练相机控制的视频生成需要度量尺度的 6-DoF 位姿标注,这在标准视频数据集中不存在。团队修改了 VIPE 管线,从 212,975 个公开视频片段中提取了可用的相机轨迹标注。整个训练在 64 张 H100 上完成,耗时约 18.5 天。
三种推理模式
SANA-WM 提供三种单卡推理变体,适配不同场景:
| 模式 | 特点 | 适用场景 |
|------|------|----------|
| 双向生成器 | 最高质量,离线合成 | 影视预览、高质量仿真 |
| 块因果自回归 | 顺序展开,支持流式 | 实时仿真、交互式应用 |
| 蒸馏自回归 | 最快(34秒/60秒720p) | 快速原型、大批量生成 |
蒸馏变体使用 DMD-2 方法,将推理压缩到 8 步采样,无需 classifier-free guidance。
量化对比
- 吞吐量:比 LingBot-World 高 36 倍
- 相机精度:CamMC 0.2047,所有对比方法中最优
- 视觉质量:VBench 分数与更大模型可比
- 显存:单卡 RTX 5090(NVFP4)即可运行,峰值约 74.7 GB
对谁有用
- 具身 AI / 机器人研究者:需要大量仿真视频训练策略模型,SANA-WM 的单卡推理和精确相机控制大幅降低了数据生成成本
- 自动驾驶仿真:6-DoF 相机控制 + 分钟级时长,可以生成完整的驾驶场景序列
- 游戏 / 影视预览:快速生成可控运镜的概念视频,验证镜头设计
- 开源社区:Apache 2.0 许可,2.6B 参数规模对学术实验室友好
需要冷静看待的
- 世界模型 ≠ 通用视频生成:SANA-WM 的核心能力是相机控制的场景合成,不是文生视频创作工具。它不做 lip sync、不做角色表演、不做文字渲染
- 720p 上限:对于需要 1080p/4K 输出的生产场景,还需要额外的超分辨率步骤
- RTX 5090 门槛:虽然是"单卡",但 RTX 5090 本身是消费级旗舰(约 74.7 GB 峰值显存需求),普通开发者的 3090/4090 可能跑不动完整配置
- refiner 依赖 17B LTX-2:两阶段管线的完整效果需要额外加载 17B 模型,实际部署复杂度高于单模型方案
- 训练数据仅 21 万片段:相比商业模型动辄千万级数据,泛化能力边界需要社区验证
- 论文刚发布:尚未经同行评审,社区复现和独立评测还需时间
---
*来源:[MarkTechPost 报道](https://www.marktechpost.com/2026/05/16/nvidia-introduces-sana-wm-a-2-6b-parameter-open-source-world-model-that-generates-minute-scale-720p-video-on-a-single-gpu/)、[arXiv:2605.15178](https://arxiv.org/abs/2605.15178)、[NVlabs/Sana GitHub](https://github.com/NVlabs/Sana),基于多家媒体转述整理*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。