AnyAct:从任意角色视频提取动作,让人体自动翻跳——动作迁移新范式

分类: AI编舞 |发布于: 5/20/2026 |最后更新: 5/20/2026
AnyAct:从任意角色视频提取动作,让人体自动"翻跳"——动作迁移新范式

AnyAct:从任意角色视频提取动作,让人体自动"翻跳"——动作迁移新范式

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

做动画的人大概都遇过这种场景:看到一段卡通片或动物视频里的动作特别带感,想让自己的人形角色也做一遍——但现有的动作捕捉工具只认"人",面对四条腿的卡通猫或者变形的动画角色就傻眼了。

5 月 19 日,一篇名为 AnyAct 的论文在 arXiv 更新了第二版,提出了一个新思路:直接从非人类角色视频里提取动作,生成可编辑的人体3D动作,供下游动画制作使用。

现有方法卡在哪

视频动捕和动作重定向是两条经典路线,但各有硬伤:

  • 视频动捕(如 OpenPose、MediaPipe)只能处理人体结构,输入必须是人形角色,遇到卡通或动物就失效。
  • 动作重定向(Motion Retargeting)需要结构化的3D源动作数据和已知的源骨骼拓扑。非人类角色通常没有现成的3D动作数据,骨骼结构也和人差异太大,根本无法对接。

问题本质是:卡通角色的身体结构(可能是4条腿、弹簧身材、夸张比例)和人体差距太大,现有的"源→目标"映射框架直接崩掉。

AnyAct 的核心洞察

AnyAct 的关键发现是:稀疏的局部2D关节运动线索,可以跨越很大的结构差异,保留动作的核心动态信息。

什么意思?想象一只卡通猫在跳舞。虽然猫的身体结构和人完全不同,但如果你只看它各个关节在2D画面上的运动轨迹——哪里加速、哪里减速、哪里摆动——这些信息是可以迁移到人体上的。

基于这个洞察,AnyAct 把"角色视频→人体重演"这个问题重新定义为:从可迁移的稀疏局部2D关节运动出发,做条件化的人体动作生成。

三项关键设计

1. 人体动作监督,不需要非人类3D标注

训练数据从哪来?直接标注非人类角色的3D动作成本极高且不可靠。AnyAct 的解决方案是:只用人体3D动作数据,通过增强的3D→2D投影来生成训练对。简单说就是——用人体动作"假装"是从角色视频里提取的2D关节运动,让模型学会从2D运动线索推断3D人体动作。

2. 渐进式3D→2D训练

如果一开始就拿2D关节运动作为条件训练,模型很容易混淆(因为2D投影丢失了深度信息)。AnyAct 先在3D域训练,等模型学好了3D条件下的动作生成,再逐步把条件从3D切换到2D。这个渐进过渡让模型在信息量变少时不至于崩溃。

3. 全局-局部运动解耦

全局运动控制角色整体的位移和朝向,局部运动保留各关节的细节动态。分开处理可以避免全局大动作干扰局部细节,也让模型在局部控制上更稳定可靠。

配套评测基准

论文还构建了一个覆盖多种非人类角色视频的 benchmark,包括卡通角色、动物、奇幻生物等。实验结果显示,AnyAct 生成的人体重演能高保真地保留源角色视频的核心动态——节奏、力度、空间路径都在。

对谁有用,局限在哪

适用人群:

  • 动画师——从参考视频中快速获取初始人体动作草稿,减少手动 K 帧工作量
  • 游戏开发者——批量从卡通/动物素材中迁移动作到人形角色
  • VTuber/虚拟人运营者——将非真人角色的经典动作迁移到自己的虚拟形象上

局限:

  • 目前输出的是"初始重演",精细的动画仍需人工微调
  • 多人交互场景未覆盖(比如两只卡通动物打架→两个人对打)
  • 对于极度夸张的弹性变形角色(如身体像弹簧一样拉伸压缩),仍有挑战

---

*基于 arXiv 论文 arXiv:2605.15497(v2, 2026-05-19)整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。