AnyAct：从任意角色视频提取动作，让人体自动翻跳——动作迁移新范式

2026年5月21日7 次阅读

AnyAct：从任意角色视频提取动作，让人体自动"翻跳"——动作迁移新范式

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

做动画的人大概都遇过这种场景：看到一段卡通片或动物视频里的动作特别带感，想让自己的人形角色也做一遍——但现有的动作捕捉工具只认"人"，面对四条腿的卡通猫或者变形的动画角色就傻眼了。

5 月 19 日，一篇名为 AnyAct 的论文在 arXiv 更新了第二版，提出了一个新思路：直接从非人类角色视频里提取动作，生成可编辑的人体3D动作，供下游动画制作使用。

现有方法卡在哪

视频动捕和动作重定向是两条经典路线，但各有硬伤：

视频动捕（如 OpenPose、MediaPipe）只能处理人体结构，输入必须是人形角色，遇到卡通或动物就失效。
动作重定向（Motion Retargeting）需要结构化的3D源动作数据和已知的源骨骼拓扑。非人类角色通常没有现成的3D动作数据，骨骼结构也和人差异太大，根本无法对接。

问题本质是：卡通角色的身体结构（可能是4条腿、弹簧身材、夸张比例）和人体差距太大，现有的"源→目标"映射框架直接崩掉。

AnyAct 的关键发现是：稀疏的局部2D关节运动线索，可以跨越很大的结构差异，保留动作的核心动态信息。

什么意思？想象一只卡通猫在跳舞。虽然猫的身体结构和人完全不同，但如果你只看它各个关节在2D画面上的运动轨迹——哪里加速、哪里减速、哪里摆动——这些信息是可以迁移到人体上的。

基于这个洞察，AnyAct 把"角色视频→人体重演"这个问题重新定义为：从可迁移的稀疏局部2D关节运动出发，做条件化的人体动作生成。

训练数据从哪来？直接标注非人类角色的3D动作成本极高且不可靠。AnyAct 的解决方案是：只用人体3D动作数据，通过增强的3D→2D投影来生成训练对。简单说就是——用人体动作"假装"是从角色视频里提取的2D关节运动，让模型学会从2D运动线索推断3D人体动作。

如果一开始就拿2D关节运动作为条件训练，模型很容易混淆（因为2D投影丢失了深度信息）。AnyAct 先在3D域训练，等模型学好了3D条件下的动作生成，再逐步把条件从3D切换到2D。这个渐进过渡让模型在信息量变少时不至于崩溃。

全局运动控制角色整体的位移和朝向，局部运动保留各关节的细节动态。分开处理可以避免全局大动作干扰局部细节，也让模型在局部控制上更稳定可靠。

论文还构建了一个覆盖多种非人类角色视频的 benchmark，包括卡通角色、动物、奇幻生物等。实验结果显示，AnyAct 生成的人体重演能高保真地保留源角色视频的核心动态——节奏、力度、空间路径都在。

适用人群：

局限：

---

*基于 arXiv 论文 arXiv:2605.15497（v2, 2026-05-19）整理。*

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。