SentiAvatar 开源:重新定义 3D 数字人动作生成范式
SentiAvatar 开源:重新定义 3D 数字人动作生成范式
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
当你和 3D 数字人对话时,有没有遇到过这种诡异时刻:它的嘴在动,但表情依旧僵硬;手在挥舞,但和说话内容完全脱节;更糟的是,那种外表像真人但动作不自然的违和感,让人瞬间陷入"恐怖谷"。
问题的根源在于,人类沟通从来不只是语言或动作的单一呈现。一个耸肩可以表达无奈,一个点头传递认同,而微微扬起的眉毛则暗示怀疑。这些由手势、姿态与面部表情构成的非语言信号,是真实交流中不可或缺的关键维度。
AI 初创公司 SentiPulse 联合中国人民大学高瓴人工智能学院博士生团队的最新研究,提出了一套 3D 数字人动作生成新范式——SentiAvatar。今天,SentiAvatar 框架、SuSuInterActs 数据集及预训练模型全球开源。
---
这是什么?
SentiAvatar 是用于构建具备表现力的交互式 3D 数字人框架。团队基于此打造了虚拟角色 SUSU,使其能够实时进行语言表达、动作表现与情绪传达。
三大核心组件:
- SuSuInterActs 数据集:包含 2.1 万段片段,总计 37 小时的多模态对话语料,围绕单一角色 SUSU 构建,包含同步的语音、行为标注文本、全身动作与面部表情。
- 动作基础模型:在超过 20 万条动作序列(约 676 小时)上预训练,具备丰富的动作先验。
- plan-then-infill 双通道架构:创新性地将句子级语义规划与逐帧韵律驱动解耦,让生成的动作既符合语义,又在节奏上与语音高度一致。
---
解决什么问题?
当前大多数 3D 数字人的动作生成停留在通用动作拼接层面,难以承载复杂语义与情绪表达。SentiAvatar 针对三个长期未被同时解决的缺口:
高质量数据荒:现有数据集要么以英语语料为主,要么缺乏与动作同步的面部表情。中文对话场景下的高质量全身动作数据几乎空白。
复合语义动作漂移:当描述从简单的"挥手"变成"无奈地耸肩"、"认同地点头"这种复合语义时,模型的理解能力急剧退化。
对话节奏错乱:模型生成的动作要么像机器人一样匀速机械,要么和语音的重音、停顿完全错位。
核心洞察:语义与韵律是两个时间尺度的问题。
- 全局语义对齐要求模型理解句子级的行为语义(如"无奈地耸肩"),并生成宏观动作结构——这是句子级问题。
- 帧级韵律对齐要求动作的速度起伏精确响应语音的重音、停顿与节律变化——这是帧级问题。
以往方法陷入两难:共语音手势生成方法(EMAGE、TalkShow 等)将动作视为音频的低阶反射,缺乏句子级语义规划;文本驱动方法(T2M-GPT、MoMask 等)则完全丢弃音频信号,无法捕捉语音韵律。
---
技术方案:plan-then-infill
SentiAvatar 的核心创新是将语义规划与韵律驱动分阶段处理,而非强行塞进一个端到端模型。
身体动作通道
第一阶段:LLM 语义规划器
接收行为标签文本和稀疏音频 Token,输出稀疏关键帧动作 Token 序列。为支持多轮流式连续生成,模型以前一句话的最后两个关键帧音频-动作 Token 对作为上下文前缀,从下一个关键帧位置续写,实现无缝跨句过渡。
第二阶段:Body Infill Transformer
在相邻关键帧之间填入中间帧,以逐帧 HuBERT 连续特征(768 维,20FPS)作为条件信号。模型采用 5 帧滑动窗口,首尾帧已知,预测中间 3 帧。推理时使用迭代置信度解码策略,逐步接受高置信度预测,避免一次性预测的质量退化。
面部表情通道
面部表情的动态与语音韵律高度耦合,无需句子级语义规划。Face Infill Transformer 直接从音频特征生成面部 Token,再由 Face R-VQVAE 解码为 51 维 ARKit 混合形状系数序列。
性能指标
- 端到端延迟:约 0.53 秒生成 6 秒动作
- 流式支持:无限多轮流式输出
- 评测结果:在 SuSuInterActs 和 BEATv2 两个数据集上均达到 SOTA
---
与主流模型对比
团队将 SentiAvatar 与几种 3D 动作生成主流 AI 模型进行对比:
- SentiAvatar:呈现出最自然的生成效果,动作语义正确,时间上与音频波形高度对齐。
- MoMask:能从文本标签中部分捕捉动作语义,但由于无法获取语音信息,生成的动作节奏较为静态。
- EMAGE:可以生成与音频同步的动作,但动作较为通用,忽略了标签中指定的语义意图。
- HunYuan-Motion:因未基于高质量动捕数据训练,生成结果中存在明显的身体畸形和不自然姿态。
消融实验进一步验证架构有效性:移除 LLM 规划器后,R@1 从 43.64% 骤降至 28.06%;移除 Infill Transformer 后,ESD 恶化至 0.503 秒。
---
开源内容
今天同步开源:
- SentiAvatar 框架:完整的模型架构与推理代码
- SuSuInterActs 数据集:21,133 条片段,36.9 小时,包含中文对话文本、语音音频、全身骨骼动作(63 关节)、面部混合形状系数(51 维 ARKit)
- 预训练模型:Motion Foundation Model,在 200K+ 序列上训练
- 虚拟角色 SUSU 模型:可直接使用的示例角色
---
对谁有用?
数字人开发者:开源可自部署,支持实时流式交互,适合虚拟主播、数字客服、AI 助手等场景。
游戏动画师:高质量动作生成能力,可作为动画预生产工具,加速角色动画制作流程。
研究者:完整训练流程、数据集和评测指标可复现,可在自有数据上微调或扩展。
---
局限性
- 数据集聚焦单一角色 SUSU,风格一致性强,多样性依赖后续扩展。
- 63 关节全身骨骼 + 51 维面部参数,需要一定算力部署。
- 刚开源,社区生态和工具链尚在初期。
---
总结
SentiAvatar 的发布,标志着 3D 数字人动作生成从"能用"走向"好用"。plan-then-infill 架构首次系统性地解决了语义与韵律的双时间尺度问题,37 小时的中文对话数据集填补了国内空白,开源可自部署为开发者和研究者提供了现实可行的路径。
当数字人不再只是"提线木偶",而是能感知语境、理解情绪、主动表达的交互主体,人机关系的底层逻辑将被重写。
---
来源:本文基于机器之心Pro 深度报道整理,官方公众号同步发布。
参考来源
- https://finance.sina.cn/stock/jdts/2026-04-08/detail-inhtucsk1649634.d.html
- https://mp.weixin.qq.com/s/13XKw1FLyDr9V3IxaPZltg
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。