美团开源 LongCat-Video-Avatar 1.5:Whisper 驱动唇形同步,8 步蒸馏推理,数字人视频生成全面升级

分类: 生图平面类 |发布于: 5/27/2026 |最后更新: 5/27/2026
美团开源 LongCat-Video-Avatar 1.5:Whisper 驱动唇形同步,8 步蒸馏推理,数字人视频生成全面升级

美团开源 LongCat-Video-Avatar 1.5:Whisper 驱动唇形同步,8 步蒸馏推理,数字人视频生成全面升级

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

数字人视频生成一直有几个老问题:嘴型对不上音频、长视频画面抖动、只能处理真人正脸。美团 LongCat 团队(Infinite Talk)5 月 21 日开源的 LongCat-Video-Avatar 1.5,针对这些痛点做了一轮系统性升级,代码和权重均以 MIT 许可证发布。

1.5 版本改了什么

相比去年 12 月发布的 1.0 版本,1.5 的核心变化集中在五个方面:

音频理解升级:音频编码器从 Wav2Vec2 换成 Whisper-Large-v3。Whisper 本身是多语言语音识别模型,用它做音频特征提取后,唇形同步的准确度明显提升,尤其在中文和多语言混合场景下表现更稳定。

物理合理性:团队在技术报告中强调 1.5 版本达到了"production-ready"级别的物理合理性和时间稳定性。长视频生成时不再出现明显的色彩漂移或肢体变形。

风格泛化:不再局限于真人正脸。1.5 支持动漫角色、动物形象、复杂真实场景(如多人、遮挡、侧脸)的音频驱动动画生成。

多流音频:支持单流和多流音频输入,可以同时驱动多个角色各自说话。

推理加速:通过步骤蒸馏(step distillation)将推理步数压缩到 8 步,相比原始采样速度有数倍提升。

底层基础:13.6B 参数视频生成模型

Avatar 1.5 建立在 LongCat-Video 基础模型之上。这个基础模型有 13.6B 参数,用统一架构同时支持文生视频、图生视频和视频续写三种任务。它的特点是原生支持长视频生成——通过粗到细的时空生成策略加上 Block Sparse Attention,可以在分钟级别内生成 720p、30fps 的视频,且不需要分段拼接。

团队还用了多奖励 GRPO(Group Relative Policy Optimization)做 RLHF 对齐,在公开基准测试上达到了与主流商业方案可比的水平。

怎么用

模型权重托管在 HuggingFace 和 ModelScope,可以直接下载。官方提供了单卡和多卡推理脚本,支持 FlashAttention-2/3 和 xformers。社区已有 ComfyUI 集成方案(通过 kijai 的 WanVideoWrapper 节点),降低了非代码用户的使用门槛。

硬件需求方面,基础模型推理需要较大显存(建议 24G 以上),多卡并行可以进一步降低单卡压力。

适用场景与局限

LongCat-Video-Avatar 1.5 主要面向数字人内容创作:虚拟主播、短视频数字人、教育讲解、产品演示等场景。MIT 许可证意味着商用无限制。

局限方面:模型体量大,对硬件要求不低;数字人场景之外的通用视频生成,基础模型虽然支持但并非 1.5 版本的重点优化方向。

---

*基于美团 LongCat 团队官方 GitHub 仓库及技术报告整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。