美团开源 LongCat-Video-Avatar 1.5：Whisper 驱动唇形同步，8 步蒸馏推理，数字人视频生成全面升级

分类: 生图平面类 |发布于: 5/27/2026 |最后更新: 5/27/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

数字人视频生成一直有几个老问题：嘴型对不上音频、长视频画面抖动、只能处理真人正脸。美团 LongCat 团队（Infinite Talk）5 月 21 日开源的 LongCat-Video-Avatar 1.5，针对这些痛点做了一轮系统性升级，代码和权重均以 MIT 许可证发布。

1.5 版本改了什么

相比去年 12 月发布的 1.0 版本，1.5 的核心变化集中在五个方面：

音频理解升级：音频编码器从 Wav2Vec2 换成 Whisper-Large-v3。Whisper 本身是多语言语音识别模型，用它做音频特征提取后，唇形同步的准确度明显提升，尤其在中文和多语言混合场景下表现更稳定。

物理合理性：团队在技术报告中强调 1.5 版本达到了"production-ready"级别的物理合理性和时间稳定性。长视频生成时不再出现明显的色彩漂移或肢体变形。

风格泛化：不再局限于真人正脸。1.5 支持动漫角色、动物形象、复杂真实场景（如多人、遮挡、侧脸）的音频驱动动画生成。

多流音频：支持单流和多流音频输入，可以同时驱动多个角色各自说话。

推理加速：通过步骤蒸馏（step distillation）将推理步数压缩到 8 步，相比原始采样速度有数倍提升。

底层基础：13.6B 参数视频生成模型

Avatar 1.5 建立在 LongCat-Video 基础模型之上。这个基础模型有 13.6B 参数，用统一架构同时支持文生视频、图生视频和视频续写三种任务。它的特点是原生支持长视频生成——通过粗到细的时空生成策略加上 Block Sparse Attention，可以在分钟级别内生成 720p、30fps 的视频，且不需要分段拼接。

团队还用了多奖励 GRPO（Group Relative Policy Optimization）做 RLHF 对齐，在公开基准测试上达到了与主流商业方案可比的水平。

怎么用

模型权重托管在 HuggingFace 和 ModelScope，可以直接下载。官方提供了单卡和多卡推理脚本，支持 FlashAttention-2/3 和 xformers。社区已有 ComfyUI 集成方案（通过 kijai 的 WanVideoWrapper 节点），降低了非代码用户的使用门槛。

硬件需求方面，基础模型推理需要较大显存（建议 24G 以上），多卡并行可以进一步降低单卡压力。

适用场景与局限

LongCat-Video-Avatar 1.5 主要面向数字人内容创作：虚拟主播、短视频数字人、教育讲解、产品演示等场景。MIT 许可证意味着商用无限制。

局限方面：模型体量大，对硬件要求不低；数字人场景之外的通用视频生成，基础模型虽然支持但并非 1.5 版本的重点优化方向。

---

*基于美团 LongCat 团队官方 GitHub 仓库及技术报告整理。*

参考来源

https://github.com/meituan-longcat/LongCat-Video

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。