SentiAvatar 开源:重新定义 3D 数字人动作生成范式

分类: AI编舞 |发布于: 4/9/2026 |最后更新: 4/9/2026
SentiAvatar 开源:重新定义 3D 数字人动作生成范式

SentiAvatar 开源:重新定义 3D 数字人动作生成范式

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

当你和 3D 数字人对话时,有没有遇到过这种诡异时刻:它的嘴在动,但表情依旧僵硬;手在挥舞,但和说话内容完全脱节;更糟的是,那种外表像真人但动作不自然的违和感,让人瞬间陷入"恐怖谷"。

问题的根源在于,人类沟通从来不只是语言或动作的单一呈现。一个耸肩可以表达无奈,一个点头传递认同,而微微扬起的眉毛则暗示怀疑。这些由手势、姿态与面部表情构成的非语言信号,是真实交流中不可或缺的关键维度。

AI 初创公司 SentiPulse 联合中国人民大学高瓴人工智能学院博士生团队的最新研究,提出了一套 3D 数字人动作生成新范式——SentiAvatar。今天,SentiAvatar 框架、SuSuInterActs 数据集及预训练模型全球开源。

---

这是什么?

SentiAvatar 是用于构建具备表现力的交互式 3D 数字人框架。团队基于此打造了虚拟角色 SUSU,使其能够实时进行语言表达、动作表现与情绪传达。

三大核心组件:

  1. SuSuInterActs 数据集:包含 2.1 万段片段,总计 37 小时的多模态对话语料,围绕单一角色 SUSU 构建,包含同步的语音、行为标注文本、全身动作与面部表情。
  1. 动作基础模型:在超过 20 万条动作序列(约 676 小时)上预训练,具备丰富的动作先验。
  1. plan-then-infill 双通道架构:创新性地将句子级语义规划与逐帧韵律驱动解耦,让生成的动作既符合语义,又在节奏上与语音高度一致。

---

解决什么问题?

当前大多数 3D 数字人的动作生成停留在通用动作拼接层面,难以承载复杂语义与情绪表达。SentiAvatar 针对三个长期未被同时解决的缺口:

高质量数据荒:现有数据集要么以英语语料为主,要么缺乏与动作同步的面部表情。中文对话场景下的高质量全身动作数据几乎空白。

复合语义动作漂移:当描述从简单的"挥手"变成"无奈地耸肩"、"认同地点头"这种复合语义时,模型的理解能力急剧退化。

对话节奏错乱:模型生成的动作要么像机器人一样匀速机械,要么和语音的重音、停顿完全错位。

核心洞察:语义与韵律是两个时间尺度的问题

  • 全局语义对齐要求模型理解句子级的行为语义(如"无奈地耸肩"),并生成宏观动作结构——这是句子级问题。
  • 帧级韵律对齐要求动作的速度起伏精确响应语音的重音、停顿与节律变化——这是帧级问题。

以往方法陷入两难:共语音手势生成方法(EMAGE、TalkShow 等)将动作视为音频的低阶反射,缺乏句子级语义规划;文本驱动方法(T2M-GPT、MoMask 等)则完全丢弃音频信号,无法捕捉语音韵律。

---

技术方案:plan-then-infill

SentiAvatar 的核心创新是将语义规划与韵律驱动分阶段处理,而非强行塞进一个端到端模型。

身体动作通道

第一阶段:LLM 语义规划器

接收行为标签文本和稀疏音频 Token,输出稀疏关键帧动作 Token 序列。为支持多轮流式连续生成,模型以前一句话的最后两个关键帧音频-动作 Token 对作为上下文前缀,从下一个关键帧位置续写,实现无缝跨句过渡。

第二阶段:Body Infill Transformer

在相邻关键帧之间填入中间帧,以逐帧 HuBERT 连续特征(768 维,20FPS)作为条件信号。模型采用 5 帧滑动窗口,首尾帧已知,预测中间 3 帧。推理时使用迭代置信度解码策略,逐步接受高置信度预测,避免一次性预测的质量退化。

面部表情通道

面部表情的动态与语音韵律高度耦合,无需句子级语义规划。Face Infill Transformer 直接从音频特征生成面部 Token,再由 Face R-VQVAE 解码为 51 维 ARKit 混合形状系数序列。

性能指标

  • 端到端延迟:约 0.53 秒生成 6 秒动作
  • 流式支持:无限多轮流式输出
  • 评测结果:在 SuSuInterActs 和 BEATv2 两个数据集上均达到 SOTA

---

与主流模型对比

团队将 SentiAvatar 与几种 3D 动作生成主流 AI 模型进行对比:

  • SentiAvatar:呈现出最自然的生成效果,动作语义正确,时间上与音频波形高度对齐。
  • MoMask:能从文本标签中部分捕捉动作语义,但由于无法获取语音信息,生成的动作节奏较为静态。
  • EMAGE:可以生成与音频同步的动作,但动作较为通用,忽略了标签中指定的语义意图。
  • HunYuan-Motion:因未基于高质量动捕数据训练,生成结果中存在明显的身体畸形和不自然姿态。

消融实验进一步验证架构有效性:移除 LLM 规划器后,R@1 从 43.64% 骤降至 28.06%;移除 Infill Transformer 后,ESD 恶化至 0.503 秒。

---

开源内容

今天同步开源:

  • SentiAvatar 框架:完整的模型架构与推理代码
  • SuSuInterActs 数据集:21,133 条片段,36.9 小时,包含中文对话文本、语音音频、全身骨骼动作(63 关节)、面部混合形状系数(51 维 ARKit)
  • 预训练模型:Motion Foundation Model,在 200K+ 序列上训练
  • 虚拟角色 SUSU 模型:可直接使用的示例角色

---

对谁有用?

数字人开发者:开源可自部署,支持实时流式交互,适合虚拟主播、数字客服、AI 助手等场景。

游戏动画师:高质量动作生成能力,可作为动画预生产工具,加速角色动画制作流程。

研究者:完整训练流程、数据集和评测指标可复现,可在自有数据上微调或扩展。

---

局限性

  • 数据集聚焦单一角色 SUSU,风格一致性强,多样性依赖后续扩展。
  • 63 关节全身骨骼 + 51 维面部参数,需要一定算力部署。
  • 刚开源,社区生态和工具链尚在初期。

---

总结

SentiAvatar 的发布,标志着 3D 数字人动作生成从"能用"走向"好用"。plan-then-infill 架构首次系统性地解决了语义与韵律的双时间尺度问题,37 小时的中文对话数据集填补了国内空白,开源可自部署为开发者和研究者提供了现实可行的路径。

当数字人不再只是"提线木偶",而是能感知语境、理解情绪、主动表达的交互主体,人机关系的底层逻辑将被重写。

---

来源:本文基于机器之心Pro 深度报道整理,官方公众号同步发布。

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。