被挡住也能做成可动数字人：AHOY 让普通视频更接近‘AI动作资产’

分类: AI编舞 |发布于: 3/19/2026 |最后更新: 3/19/2026

被挡住也能做成可动数字人：AHOY 让普通视频更接近“AI动作资产”

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

如果只看一句话，这条近36小时内公开的新成果值得关注的原因很简单：研究团队开始把“被遮挡的人物视频”也变成可驱动、可复用的 3D 数字人。

这听起来像论文圈的小更新，但对内容创作、虚拟人、动作资产制作和 AI 编舞相关工作流来说，意义并不小。因为现实里最常见的视频素材，往往都不完美：人物只拍到半身，被桌子挡住腿，被椅子挡住侧面，或者镜头里还有其他人。这类素材过去很难直接进入高质量 3D 人体重建流程，更别说继续做动作驱动和场景合成。

AHOY 的目标，就是把这道门槛往下拉。

这项新研究到底做了什么？

AHOY 的全称是 Animatable Humans under Occlusion from YouTube Videos with Gaussian Splatting and Video Diffusion Priors。直白一点说，它想解决的问题是：

能不能只靠普通单目视频，哪怕人物有明显遮挡，也重建出一个还能继续被新动作驱动的 3D 人体 avatar？

研究团队给出的答案是：可以尝试，而且效果已经比很多“默认人物必须无遮挡”的方法更接近真实使用环境。

这里最重要的不是“又能从视频生成 3D 模型了”。这种方向这几年已经很多。真正值得看的是，AHOY 把重点放在了更麻烦、也更真实的输入条件上：

人物被家具挡住
人物在访谈、Vlog、节目镜头里只露出部分身体
同一段视频里看不到完整身体
没有专业多机位采集条件

换句话说，它不是为了实验室里干净、标准、全身无遮挡的素材设计，而是冲着互联网上大量普通视频去的。项目页甚至直接点明了一个核心想法：如果互联网上最多的是 YouTube 这类随手拍、非专业采集的人物视频，那数字人重建就不该只服务于理想条件。

为什么这件事对 AI 编舞和动作生成栏目也重要？

因为“动作生成”不只是让画面里的人动起来，还包括一个更底层的问题：这个人能不能被当成资产继续编辑、复用、换动作、塞进别的场景里。

很多 AI 视频看起来已经很会动了，但它们的问题也很明显：

生成结果往往是一次性的
人物动作不好精确编辑
很难进入标准 3D 工作流
想复用同一个角色做下一条内容，经常得重新来

而 AHOY 代表的路线更像另一条思路：

先把人物变成一个可动画驱动的 3D 数字人，再谈后续动作、镜头、场景、编排。

这对 AI 编舞、虚拟演出、数字分身、短视频角色运营都很关键。因为真正好用的动作系统，不只是“会出片”，还得“能连续生产”。

它大概是怎么做到的？

论文和项目页给出的技术细节很复杂，但如果站在普通读者角度，可以把它理解成四步。

第一步：先把“看得见的身体部分”尽量整理出来

系统会先利用人体表面对应关系，把视频里已经能看到的服装纹理、身体区域，尽可能映射到一个比较标准的人体表示上。

这一步还做不了完整重建，但它相当于先把拼图里已经出现的部分放到正确位置。

第二步：对“本来没拍到”的区域做补全

真正难的是那些根本没出现在镜头里的部分，比如被桌子挡住的腿、被遮住的身体侧面。

AHOY 的做法不是简单忽略，而是引入扩散模型去生成更密集的监督信息，帮助系统对这些未观测区域进行补全。论文里把这件事描述为一种“hallucination-as-supervision”流程。

这个词听着有点吓人，但可以把它理解成：模型会根据已经看到的身份特征、服装外观和人体结构规律，去推断缺失区域长什么样。

这当然不等于百分之百真实复原，但至少让系统不再因为“没拍全”就直接失效。

第三步：从粗模走向可随姿态变化的完整 avatar

补全出比较完整的监督信息后，系统会继续训练一个更完整的、随姿态变化的人体表示。也就是说，它不是只做一个静态模型，而是要做成一个能被后续动作驱动的角色。

这也是它和很多“看起来像 3D，但其实不太方便再编辑”的方案之间的关键差别。

第四步：让这个数字人接收新动作，并放进新场景

项目页展示了一个很直观的结果：重建完成后，这个 avatar 可以用新的姿态序列去驱动，还可以被合成到 3D Gaussian Splatting 场景里。

论文还提到，它展示了用 AMASS 动作序列来驱动角色的效果。对创作者来说，这意味着它不是停留在“把一个人扫描出来”，而是开始靠近“把一个角色做成能继续演”的状态。

它最打动人的地方，不是效果图，而是输入条件更现实

过去很多高质量数字人方案并不是不能做得好，而是前提太苛刻：

需要多机位相机阵列
需要专门扫描环境
需要完整全身素材
需要被摄对象反复配合采集

这类方案在影视、游戏大厂和实验室里当然有价值，但离普通创作者、轻量团队和开放网络素材很远。

AHOY 的关键推进，在于它承认一个现实：

互联网上真正大量存在的不是“完美采集素材”，而是“遮挡很多、角度有限、质量参差不齐”的普通视频。

谁能先把这些素材吃下来，谁就更接近下一阶段的数字人生产工具链。

它适合谁看？

1. 虚拟人和数字分身团队

如果你做的是主持人分身、品牌数字人、虚拟导览、在线展示，AHOY 这类方向很值得盯。因为它意味着未来不一定非要搭高成本采集棚，普通素材也可能逐步进入可用流程。

2. 3D 内容创作者

对做 Blender、Unreal、Unity、短片预演、MV 概念片的人来说，这种技术的价值不只是“生成一个人”，而是“生成一个还能接动作的角色基础件”。

3. 动作资产和 AI 编舞相关从业者

如果你关心的是 AI 编舞、舞蹈生成、动作合成，那么这类研究提供的不是成品舞蹈，而是更底层的人体载体。你可以把它理解成：动作模型负责“怎么动”，而这类系统负责“谁来动、能不能持续动”。

4. 广告、短视频、游戏预演团队

很多商业内容不缺创意，缺的是足够低成本、能反复改、能快速迭代的人物资产生产方式。AhoY 这类路线如果继续成熟，会比一次性生成视频更容易进入团队流程。

它和常见路线相比，差别在哪？

最容易理解的方法，是把它和三类常见路线放在一起看。

第一类是多机位扫描。优点是质量高、信息完整，缺点是贵、重、门槛高。

第二类是纯生成视频。优点是出片快，适合做概念演示、短内容和视觉尝鲜；缺点是角色的一致性、可编辑性和复用性通常不够强。

第三类就是 AHOY 这种“从普通视频出发，重建可动画数字人”的路线。它的吸引力在于两头兼顾：

输入端不要求特别豪华的拍摄条件
输出端又不满足于一次性视频，而是更强调可驱动、可重用

这也是它为什么值得出现在 AI 编舞动态栏目里。因为未来真正有价值的动作工作流，往往不是只比“谁生成得更花”，而是比“谁更容易变成长期可复用资产”。

现在就能直接用吗？先别高兴太早

也要说清楚，AHOY 目前仍然是研究成果，不是成熟消费级产品。

几个现实限制不能忽略。

第一，代码暂未公开 release

论文页写得很清楚，目前能看到的是论文和项目页展示，不是一个今天就能下载安装的现成工具。

第二，补全区域本质上带有推断成分

它要处理的是“没拍到”的区域，所以无论方法多先进，都会包含一定程度的合理猜测。对于远景、普通内容也许足够，但如果你要求极高的真实还原，那还是要谨慎。

第三，复杂遮挡和商业稳定性还要继续观察

论文展示的结果已经很有说服力，但真正走向商用，还要看更多样本、更多人物体型、服装类型、镜头条件，以及更长时间序列下的稳定性。

第四，它解决的是一环，不是全部

它并没有直接替你生成完整编舞方案，也不是万能动作引擎。更准确地说，它补的是“从普通视频到可驱动人体资产”这一段。

为什么这条线值得继续盯？

因为 AI 动作生成正在从“看起来会动”转向“能不能被继续编辑和复用”。

这两者差别很大。

前者更像烟花，适合一眼惊艳；后者更像工具链，决定的是你能不能连续做内容、反复改内容、把角色放进更大的工作流里。

AHOY 的价值就在这里：它让人看到一个更现实的方向——不是等所有人都去搭建专业拍摄棚，而是想办法把互联网上原本不完美的视频素材，也变成可驱动的人物资产。

如果这条路线继续成熟，后面受益的不会只有学术圈。虚拟人、AI 编舞、动作捕捉替代流程、3D 短视频、游戏预演、AR/VR 内容制作，都会被影响。

最后一句

这次最值得记住的，不是某个论文名，而是一个更清晰的行业趋势：

AI 动作内容的下一阶段，拼的不只是“能生成动作”，而是“能不能把普通视频里的人，变成一个还能继续演、继续改、继续复用的数字角色”。

AHOY 还不是终点，但它确实把这个方向往前推了一步。

参考来源

arXiv：AHOY! Animatable Humans under Occlusion from YouTube Videos with Gaussian Splatting and Video Diffusion Priors

https://arxiv.org/abs/2603.17975

项目页：AHOY! Animatable Humans under Occlusion from YouTube Videos

https://miraymen.github.io/ahoy/

对比候选：Universal Skeleton Understanding via Differentiable Rendering and MLLMs

https://arxiv.org/abs/2603.18003

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。