DreamID-Omni 开源了：一套把人物脸、声音和视频动作尽量对齐的音视频生成框架，也已经能接入 ComfyUI

分类: 视频模型 |发布于: 3/18/2026 |最后更新: 3/18/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

如果你最近在关注 AI 视频，DreamID-Omni 这次值得看，不只是因为它又多了一个“能生成视频”的名字，而是因为它想把一件更麻烦的事一次做好：让人物外观、声音和视频里的动作表达尽量落在同一条生成链路里。对已经在玩 ComfyUI、本地视频工作流或数字人口播内容的人来说，这比单纯多一个视频模型更有意义。

更实际的一点是，这个项目刚开源不久，社区侧已经很快给出了 ComfyUI 节点封装。也就是说，你不一定要从论文代码和推理脚本硬啃起步，而是可以更直接地把它接进现有工作流里。对普通创作者来说，这往往比论文里多几个指标更重要。

DreamID-Omni 到底是什么

根据官方 GitHub 仓库的定义，DreamID-Omni 是一个 “Unified Framework for Controllable Human-Centric Audio-Video Generation”，也就是“以人为中心的可控音视频生成统一框架”。项目作者来自清华大学相关团队，并与字节跳动团队有关联，论文已经发布在 arXiv，代码在 3 月中旬放出。

这句话看起来很学术，翻成更容易理解的话，大概就是：

你给它人物参考图
再给它参考音频
然后用提示词描述场景、动作和说话内容
它尝试生成一个人物身份、声音风格和画面表达相互配合的视频

和很多只强调“图生视频”或“语音驱动口播”的方案不同，DreamID-Omni 想解决的是更完整的人物驱动问题。尤其是在角色内容、数字人短视频、对话式视频这些场景里，大家最怕的往往不是视频生成不出来，而是脸不像、声音不稳、说话和角色对应不上。这恰恰是它试图统一处理的方向。

它能做什么，为什么会让创作者在意

从官方仓库和 ComfyUI 节点说明来看，DreamID-Omni 目前至少有几个很直接的卖点。

1. 支持人物身份尽量保持一致

项目强调 identity-preserving，也就是身份保留。简单说，你提供的参考人物图像不只是“风格参考”，而是尽量作为生成中角色身份的锚点。对于做虚拟角色、固定 IP 账号、人物口播内容的人来说，这一点非常关键。

因为很多视频模型能出动态，但不一定能守住人物；能守住人物的，又未必能把语音和动作一起接好。DreamID-Omni 的吸引力就在于，它不是只补一个单点能力，而是在尝试把这些关键能力打通。

2. 不只是单人，还支持双人场景

官方示例和 RunningHub 的 ComfyUI 节点都提到，DreamID-Omni 不仅支持单人模式，也支持双人模式。也就是说，你可以给两个人物分别提供参考图和参考音频，去生成对话、互动类画面。

这比普通 talking-head 更进一步。单人口播大家已经见得很多了，但双人互动一旦能稳定下来，适用场景会明显扩大，比如：

AI 角色对谈
知识类双人讲解
剧情短片的简化制作
虚拟主播之间的互动内容

当然，支持双人不等于所有情况下都很稳，但至少说明这个项目从一开始就不是只瞄准最基础的“一个人对口型讲话”。

3. 提示词里可以直接控制“谁在说话”

DreamID-Omni 的一个重要设计，是通过特殊标签在提示词里标记角色身份和 speech 内容。官方说明里提到，提示词中可以用角色标记去指定谁在行动、谁在说话，文本里的 speech 标签会转成对应角色的语音表达。

这件事听起来技术味很重，但对创作者很有价值，因为它把“人物绑定”和“台词绑定”放进了同一套提示结构里。换句话说，生成不只是“给一个音频配一张嘴”，而是试图把角色、场景、动作和说话关系写进同一个生成描述里。

这次最实用的变化：已经能接进 ComfyUI

如果只有论文和原始代码，这类项目对很多人来说仍然偏远。真正让它更有讨论价值的，是 HM-RunningHub 已经放出了对应的 ComfyUI 插件仓库。

从节点仓库的介绍看，这个插件的核心价值很明确：把 DreamID-Omni 封装成 ComfyUI 可调用的节点，并且输出标准 VIDEO 类型，能更自然地接入现有视频工作流。对习惯用 ComfyUI 拼节点的人来说，这比单独维护一套 Python 推理环境友好多了。

节点说明里还给出了比较清晰的输入结构：

prompt
采样步数
seed
分辨率
参考人脸图
第二人物参考图（可选）
参考音频
第二人物参考音频（可选）

这意味着它已经不是“只能看论文复现思路”的阶段，而是开始进入“创作者可以直接摸工作流、调参数、看结果”的阶段。对于开源项目来说，这种生态跟进速度往往很重要。模型本身强不强是一回事，能不能快速进入工具链是另一回事。

但它不是低门槛玩具，硬件和部署成本要先想清楚

如果你看到“ComfyUI 节点已上线”就以为能随手在普通电脑上开跑，那大概率会失望。

RunningHub 节点仓库写得很直接：默认的 992×512 分辨率，是按 24GB 显存 GPU 做了相对优化的。仓库还提到 BF16 精度与动态 FP8 量化，以便降低显存压力。这些信息已经足够说明，DreamID-Omni 不是轻量化小工具，而是一个依赖比较重、模型组合也比较复杂的系统。

从模型结构说明看，你不仅要处理 DreamID-Omni 本体，还要配套文本编码器、VAE，以及 MMAudio 相关权重。对没有本地部署经验的人来说，光是把目录结构和依赖摆对，就已经是一轮筛选。

所以更准确的预期应该是：

它适合已经有 ComfyUI 使用经验的人
适合愿意折腾模型和依赖的人
适合本地显卡条件还不错的玩家或工作室
不太适合把它当成“零门槛一键神器”的新手

哪些场景适合它，哪些场景别抱太高期待

适合的场景

角色口播与数字人短视频。

如果你本来就在做固定人设账号，或者需要让某个角色稳定出镜，DreamID-Omni 这种“参考脸 + 参考音频 + 提示词”的组合会比普通视频模型更对路。

双人对话和角色互动。

当一个框架同时支持两个人物的图像和音频绑定时，它天然就更适合访谈、对话、剧情切片这种内容结构。

ComfyUI 进阶工作流实验。

对已经在 ComfyUI 里做视频生成、放大、修复、后处理的人来说，这类节点最容易被接进现有链路里继续放大价值，而不是孤立地跑一次演示。

不太适合的场景

低配电脑直接试玩。

如果你的硬件本来就比较吃紧，或者不想为一个项目处理多套模型权重和依赖，这条路不会轻松。

追求极稳定商业生产。

新开源项目最吸引人的地方是新能力，但也意味着工作流还在快速变化。要拿它直接撑高强度生产线，通常还需要更长时间验证。

超长、复杂叙事视频。

它更像是人物驱动生成能力的一次增强，而不是已经把复杂剧情长视频的连续稳定性问题全部解决了。

如果你想试，最省时间的路径是什么

对于大多数人，比较省时间的顺序不是先下全套模型，而是先做三步判断。

第一步，先看原视频演示，确认它展示出来的效果是不是你真正需要的方向。很多人看到“统一框架”会很兴奋，但真正关心的可能只是固定角色口播，或者只是双人对话，这时先看演示比盲目部署更省时间。

第二步，直接看官方 GitHub 仓库。这里能最快确认三件事：项目是不是刚发布、依赖有多重、推理入口是什么。官方仓库目前已经明确给出了下载权重、环境安装、推理命令，以及与 vLLM-omni 的衔接说明。

第三步，再决定是否走 ComfyUI 节点。对于已经有 ComfyUI 工作流的人，这通常是最自然的入口；对于完全没接触过节点工作流的人，先理解官方原始结构反而更不容易踩坑。

该怎么看 DreamID-Omni 这次开源

DreamID-Omni 的价值，不只是“又来一个 AI 视频项目”，而是它把人物身份、语音和视频生成这些过去经常分散处理的能力，往统一框架方向推了一步。更关键的是，社区很快补上了 ComfyUI 节点，这让它从“论文级项目”更快变成“创作者可试用的工具”。

现阶段当然还不能把它神化。它依然有硬件门槛，也依然需要时间验证在更多人物、更多场景、更多时长下的稳定性。但如果你本来就关注角色一致性、数字人口播、双人互动视频，或者你是长期折腾 ComfyUI 的用户，那 DreamID-Omni 确实值得放进最近的跟进清单里。

参考来源

B站原视频：https://www.bilibili.com/video/BV14VwezbEVW
DreamID-Omni GitHub：https://github.com/Guoxu1233/DreamID-Omni
DreamID-Omni 论文：https://arxiv.org/abs/2602.12160
ComfyUI 节点：https://github.com/HM-RunningHub/ComfyUI_RH_Dreamid-Omni

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。