NVIDIA 开源 SANA-WM：2.6B 参数世界模型，单卡生成一分钟 720p 可控运镜视频

分类: 视频模型 |发布于: 5/16/2026 |最后更新: 5/16/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

5月16日，NVIDIA 发布 SANA-WM——一个 2.6B 参数的开源世界模型，能在单张 RTX 5090 上用 34 秒生成 60 秒的 720p 视频，并支持精确的 6 自由度（6-DoF）相机轨迹控制。代码和权重通过 NVlabs/Sana GitHub 仓库开源（Apache 2.0）。

世界模型为什么难做到"分钟级 + 单卡"

世界模型（World Model）是从一张初始图像加一组动作指令出发，合成逼真视频序列的系统。它是具身 AI、机器人仿真、自动驾驶训练的核心基础设施。

但现有开源世界模型面临三个瓶颈：

多卡才能跑：生成分钟级视频需要处理近千帧隐空间序列，标准 softmax 注意力的显存和计算量随序列长度二次增长，单卡根本装不下
时长受限：大多数模型只能生成 5-15 秒片段，超过这个长度画面就开始漂移、失真
相机控制粗糙：文本描述"向左平移"和精确的 6-DoF 轨迹是两回事，前者不可复现，后者才是仿真和影视预览需要的

SANA-WM 同时解决了这三个问题。

四个核心设计决策

1. 混合线性注意力：分钟级序列不爆显存

SANA-WM 用帧级 Gated DeltaNet（GDN）替代了大部分 softmax 注意力块。GDN 的关键特性：

恒定状态大小：不管视频多长，循环状态始终是 D×D 矩阵，显存不随帧数增长
衰减门控：旧帧信息会被逐步衰减，避免分钟级序列中早期帧的"幽灵残留"导致画面漂移
Delta 规则修正：只更新当前预测和目标之间的残差，提高状态利用效率

为了训练稳定性，团队引入了代数键缩放（1/√(D·S)），彻底消除了标准归一化方案在长序列训练中出现的 NaN 发散问题。

最终骨干网络由 20 个 Transformer 块组成：15 个 GDN 块 + 5 个 softmax 注意力块（分布在第 3/7/11/15/19 层）。softmax 块提供精确的长程回忆能力，GDN 块负责高效的序列推进。

2. 双分支相机控制：粗细结合跟住 6-DoF 轨迹

精确的相机控制需要模型忠实跟随连续的 6-DoF 轨迹，而不只是理解"镜头向右推"这种文本描述。SANA-WM 用两个互补分支实现：

粗分支（UCPE 注意力）：在隐帧率上工作。对每个隐空间 token，从相机到世界的位姿和内参中计算射线局部相机基，然后对注意力头的几何通道施加统一相机位置编码（UCPE）。捕捉全序列的全局轨迹结构。

细分支（Plücker 混合）：解决压缩失配问题。每个隐空间 token 实际上概括了 8 个原始帧，每帧有自己的相机位姿。细分支从这 8 帧中计算逐像素的 Plücker 射线图（6D 表示），打包成 48 通道张量，通过零初始化投影注入每个自注意力输出之后。这恢复了粗分支在隐帧分辨率下看不到的帧内相机运动。

消融实验显示：仅用 UCPE 的 CamMC 为 0.2453，双分支达到 0.2047——在所有对比方法中最优，包括参数量 5 倍以上的模型。

3. 两阶段生成管线：refiner 修正长程漂移

Stage-1 SANA-WM 的输出在时空一致性上已经不错，但长序列仍会出现结构性伪影。第二阶段 refiner 基于 17B LTX-2 模型，加上 rank-384 LoRA 适配器微调。

工作方式：对 stage-1 的隐空间输出加入大噪声（σ_start=0.9），refiner 学习从这个噪声输入映射到高保真目标。推理时只需 3 步 Euler 去噪。

效果：Hard 轨迹上的视觉漂移指标 ΔIQ 从 3.09 降到 0.31——几乎消除了长程画面退化。

4. 数据标注管线

训练相机控制的视频生成需要度量尺度的 6-DoF 位姿标注，这在标准视频数据集中不存在。团队修改了 VIPE 管线，从 212,975 个公开视频片段中提取了可用的相机轨迹标注。整个训练在 64 张 H100 上完成，耗时约 18.5 天。

三种推理模式

SANA-WM 提供三种单卡推理变体，适配不同场景：

| 模式 | 特点 | 适用场景 |

|------|------|----------|

| 双向生成器 | 最高质量，离线合成 | 影视预览、高质量仿真 |

| 块因果自回归 | 顺序展开，支持流式 | 实时仿真、交互式应用 |

| 蒸馏自回归 | 最快（34秒/60秒720p） | 快速原型、大批量生成 |

蒸馏变体使用 DMD-2 方法，将推理压缩到 8 步采样，无需 classifier-free guidance。

量化对比

吞吐量：比 LingBot-World 高 36 倍
相机精度：CamMC 0.2047，所有对比方法中最优
视觉质量：VBench 分数与更大模型可比
显存：单卡 RTX 5090（NVFP4）即可运行，峰值约 74.7 GB

对谁有用

具身 AI / 机器人研究者：需要大量仿真视频训练策略模型，SANA-WM 的单卡推理和精确相机控制大幅降低了数据生成成本
自动驾驶仿真：6-DoF 相机控制 + 分钟级时长，可以生成完整的驾驶场景序列
游戏 / 影视预览：快速生成可控运镜的概念视频，验证镜头设计
开源社区：Apache 2.0 许可，2.6B 参数规模对学术实验室友好

需要冷静看待的

世界模型 ≠ 通用视频生成：SANA-WM 的核心能力是相机控制的场景合成，不是文生视频创作工具。它不做 lip sync、不做角色表演、不做文字渲染
720p 上限：对于需要 1080p/4K 输出的生产场景，还需要额外的超分辨率步骤
RTX 5090 门槛：虽然是"单卡"，但 RTX 5090 本身是消费级旗舰（约 74.7 GB 峰值显存需求），普通开发者的 3090/4090 可能跑不动完整配置
refiner 依赖 17B LTX-2：两阶段管线的完整效果需要额外加载 17B 模型，实际部署复杂度高于单模型方案
训练数据仅 21 万片段：相比商业模型动辄千万级数据，泛化能力边界需要社区验证
论文刚发布：尚未经同行评审，社区复现和独立评测还需时间

---

*来源：[MarkTechPost 报道](https://www.marktechpost.com/2026/05/16/nvidia-introduces-sana-wm-a-2-6b-parameter-open-source-world-model-that-generates-minute-scale-720p-video-on-a-single-gpu/)、[arXiv:2605.15178](https://arxiv.org/abs/2605.15178)、[NVlabs/Sana GitHub](https://github.com/NVlabs/Sana)，基于多家媒体转述整理*

参考来源

https://www.marktechpost.com/2026/05/16/nvidia-introduces-sana-wm-a-2-6b-parameter-open-source-world-model-that-generates-minute-scale-720p-video-on-a-single-gpu/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。