SentiAvatar 开源：重新定义 3D 数字人动作生成范式

分类: AI编舞 |发布于: 4/9/2026 |最后更新: 4/9/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

当你和 3D 数字人对话时，有没有遇到过这种诡异时刻：它的嘴在动，但表情依旧僵硬；手在挥舞，但和说话内容完全脱节；更糟的是，那种外表像真人但动作不自然的违和感，让人瞬间陷入"恐怖谷"。

问题的根源在于，人类沟通从来不只是语言或动作的单一呈现。一个耸肩可以表达无奈，一个点头传递认同，而微微扬起的眉毛则暗示怀疑。这些由手势、姿态与面部表情构成的非语言信号，是真实交流中不可或缺的关键维度。

AI 初创公司 SentiPulse 联合中国人民大学高瓴人工智能学院博士生团队的最新研究，提出了一套 3D 数字人动作生成新范式——SentiAvatar。今天，SentiAvatar 框架、SuSuInterActs 数据集及预训练模型全球开源。

---

这是什么？

SentiAvatar 是用于构建具备表现力的交互式 3D 数字人框架。团队基于此打造了虚拟角色 SUSU，使其能够实时进行语言表达、动作表现与情绪传达。

三大核心组件：

SuSuInterActs 数据集：包含 2.1 万段片段，总计 37 小时的多模态对话语料，围绕单一角色 SUSU 构建，包含同步的语音、行为标注文本、全身动作与面部表情。

动作基础模型：在超过 20 万条动作序列（约 676 小时）上预训练，具备丰富的动作先验。

plan-then-infill 双通道架构：创新性地将句子级语义规划与逐帧韵律驱动解耦，让生成的动作既符合语义，又在节奏上与语音高度一致。

---

解决什么问题？

当前大多数 3D 数字人的动作生成停留在通用动作拼接层面，难以承载复杂语义与情绪表达。SentiAvatar 针对三个长期未被同时解决的缺口：

高质量数据荒：现有数据集要么以英语语料为主，要么缺乏与动作同步的面部表情。中文对话场景下的高质量全身动作数据几乎空白。

复合语义动作漂移：当描述从简单的"挥手"变成"无奈地耸肩"、"认同地点头"这种复合语义时，模型的理解能力急剧退化。

对话节奏错乱：模型生成的动作要么像机器人一样匀速机械，要么和语音的重音、停顿完全错位。

核心洞察：语义与韵律是两个时间尺度的问题。

全局语义对齐要求模型理解句子级的行为语义（如"无奈地耸肩"），并生成宏观动作结构——这是句子级问题。
帧级韵律对齐要求动作的速度起伏精确响应语音的重音、停顿与节律变化——这是帧级问题。

以往方法陷入两难：共语音手势生成方法（EMAGE、TalkShow 等）将动作视为音频的低阶反射，缺乏句子级语义规划；文本驱动方法（T2M-GPT、MoMask 等）则完全丢弃音频信号，无法捕捉语音韵律。

---

技术方案：plan-then-infill

SentiAvatar 的核心创新是将语义规划与韵律驱动分阶段处理，而非强行塞进一个端到端模型。

身体动作通道

第一阶段：LLM 语义规划器

接收行为标签文本和稀疏音频 Token，输出稀疏关键帧动作 Token 序列。为支持多轮流式连续生成，模型以前一句话的最后两个关键帧音频-动作 Token 对作为上下文前缀，从下一个关键帧位置续写，实现无缝跨句过渡。

第二阶段：Body Infill Transformer

在相邻关键帧之间填入中间帧，以逐帧 HuBERT 连续特征（768 维，20FPS）作为条件信号。模型采用 5 帧滑动窗口，首尾帧已知，预测中间 3 帧。推理时使用迭代置信度解码策略，逐步接受高置信度预测，避免一次性预测的质量退化。

面部表情通道

面部表情的动态与语音韵律高度耦合，无需句子级语义规划。Face Infill Transformer 直接从音频特征生成面部 Token，再由 Face R-VQVAE 解码为 51 维 ARKit 混合形状系数序列。

性能指标

端到端延迟：约 0.53 秒生成 6 秒动作
流式支持：无限多轮流式输出
评测结果：在 SuSuInterActs 和 BEATv2 两个数据集上均达到 SOTA

---

与主流模型对比

团队将 SentiAvatar 与几种 3D 动作生成主流 AI 模型进行对比：

SentiAvatar：呈现出最自然的生成效果，动作语义正确，时间上与音频波形高度对齐。
MoMask：能从文本标签中部分捕捉动作语义，但由于无法获取语音信息，生成的动作节奏较为静态。
EMAGE：可以生成与音频同步的动作，但动作较为通用，忽略了标签中指定的语义意图。
HunYuan-Motion：因未基于高质量动捕数据训练，生成结果中存在明显的身体畸形和不自然姿态。

消融实验进一步验证架构有效性：移除 LLM 规划器后，R@1 从 43.64% 骤降至 28.06%；移除 Infill Transformer 后，ESD 恶化至 0.503 秒。

---

开源内容

今天同步开源：

SentiAvatar 框架：完整的模型架构与推理代码
SuSuInterActs 数据集：21,133 条片段，36.9 小时，包含中文对话文本、语音音频、全身骨骼动作（63 关节）、面部混合形状系数（51 维 ARKit）
预训练模型：Motion Foundation Model，在 200K+ 序列上训练
虚拟角色 SUSU 模型：可直接使用的示例角色

---

对谁有用？

数字人开发者：开源可自部署，支持实时流式交互，适合虚拟主播、数字客服、AI 助手等场景。

游戏动画师：高质量动作生成能力，可作为动画预生产工具，加速角色动画制作流程。

研究者：完整训练流程、数据集和评测指标可复现，可在自有数据上微调或扩展。

---

局限性

数据集聚焦单一角色 SUSU，风格一致性强，多样性依赖后续扩展。
63 关节全身骨骼 + 51 维面部参数，需要一定算力部署。
刚开源，社区生态和工具链尚在初期。

---

总结

SentiAvatar 的发布，标志着 3D 数字人动作生成从"能用"走向"好用"。plan-then-infill 架构首次系统性地解决了语义与韵律的双时间尺度问题，37 小时的中文对话数据集填补了国内空白，开源可自部署为开发者和研究者提供了现实可行的路径。

当数字人不再只是"提线木偶"，而是能感知语境、理解情绪、主动表达的交互主体，人机关系的底层逻辑将被重写。

---

来源：本文基于机器之心Pro 深度报道整理，官方公众号同步发布。

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。