被挡住也能做成可动数字人:AHOY 让普通视频更接近‘AI动作资产’

分类: AI编舞 |发布于: 3/19/2026 |最后更新: 3/19/2026
被挡住也能做成可动数字人:AHOY 让普通视频更接近“AI动作资产”

被挡住也能做成可动数字人:AHOY 让普通视频更接近“AI动作资产”

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

如果只看一句话,这条近36小时内公开的新成果值得关注的原因很简单:研究团队开始把“被遮挡的人物视频”也变成可驱动、可复用的 3D 数字人。

这听起来像论文圈的小更新,但对内容创作、虚拟人、动作资产制作和 AI 编舞相关工作流来说,意义并不小。因为现实里最常见的视频素材,往往都不完美:人物只拍到半身,被桌子挡住腿,被椅子挡住侧面,或者镜头里还有其他人。这类素材过去很难直接进入高质量 3D 人体重建流程,更别说继续做动作驱动和场景合成。

AHOY 的目标,就是把这道门槛往下拉。

这项新研究到底做了什么?

AHOY 的全称是 Animatable Humans under Occlusion from YouTube Videos with Gaussian Splatting and Video Diffusion Priors。直白一点说,它想解决的问题是:

能不能只靠普通单目视频,哪怕人物有明显遮挡,也重建出一个还能继续被新动作驱动的 3D 人体 avatar?

研究团队给出的答案是:可以尝试,而且效果已经比很多“默认人物必须无遮挡”的方法更接近真实使用环境。

这里最重要的不是“又能从视频生成 3D 模型了”。这种方向这几年已经很多。真正值得看的是,AHOY 把重点放在了更麻烦、也更真实的输入条件上:

  • 人物被家具挡住
  • 人物在访谈、Vlog、节目镜头里只露出部分身体
  • 同一段视频里看不到完整身体
  • 没有专业多机位采集条件

换句话说,它不是为了实验室里干净、标准、全身无遮挡的素材设计,而是冲着互联网上大量普通视频去的。项目页甚至直接点明了一个核心想法:如果互联网上最多的是 YouTube 这类随手拍、非专业采集的人物视频,那数字人重建就不该只服务于理想条件。

为什么这件事对 AI 编舞和动作生成栏目也重要?

因为“动作生成”不只是让画面里的人动起来,还包括一个更底层的问题:这个人能不能被当成资产继续编辑、复用、换动作、塞进别的场景里。

很多 AI 视频看起来已经很会动了,但它们的问题也很明显:

  • 生成结果往往是一次性的
  • 人物动作不好精确编辑
  • 很难进入标准 3D 工作流
  • 想复用同一个角色做下一条内容,经常得重新来

而 AHOY 代表的路线更像另一条思路:

先把人物变成一个可动画驱动的 3D 数字人,再谈后续动作、镜头、场景、编排。

这对 AI 编舞、虚拟演出、数字分身、短视频角色运营都很关键。因为真正好用的动作系统,不只是“会出片”,还得“能连续生产”。

它大概是怎么做到的?

论文和项目页给出的技术细节很复杂,但如果站在普通读者角度,可以把它理解成四步。

第一步:先把“看得见的身体部分”尽量整理出来

系统会先利用人体表面对应关系,把视频里已经能看到的服装纹理、身体区域,尽可能映射到一个比较标准的人体表示上。

这一步还做不了完整重建,但它相当于先把拼图里已经出现的部分放到正确位置。

第二步:对“本来没拍到”的区域做补全

真正难的是那些根本没出现在镜头里的部分,比如被桌子挡住的腿、被遮住的身体侧面。

AHOY 的做法不是简单忽略,而是引入扩散模型去生成更密集的监督信息,帮助系统对这些未观测区域进行补全。论文里把这件事描述为一种“hallucination-as-supervision”流程。

这个词听着有点吓人,但可以把它理解成:模型会根据已经看到的身份特征、服装外观和人体结构规律,去推断缺失区域长什么样。

这当然不等于百分之百真实复原,但至少让系统不再因为“没拍全”就直接失效。

第三步:从粗模走向可随姿态变化的完整 avatar

补全出比较完整的监督信息后,系统会继续训练一个更完整的、随姿态变化的人体表示。也就是说,它不是只做一个静态模型,而是要做成一个能被后续动作驱动的角色。

这也是它和很多“看起来像 3D,但其实不太方便再编辑”的方案之间的关键差别。

第四步:让这个数字人接收新动作,并放进新场景

项目页展示了一个很直观的结果:重建完成后,这个 avatar 可以用新的姿态序列去驱动,还可以被合成到 3D Gaussian Splatting 场景里。

论文还提到,它展示了用 AMASS 动作序列来驱动角色的效果。对创作者来说,这意味着它不是停留在“把一个人扫描出来”,而是开始靠近“把一个角色做成能继续演”的状态。

它最打动人的地方,不是效果图,而是输入条件更现实

过去很多高质量数字人方案并不是不能做得好,而是前提太苛刻:

  • 需要多机位相机阵列
  • 需要专门扫描环境
  • 需要完整全身素材
  • 需要被摄对象反复配合采集

这类方案在影视、游戏大厂和实验室里当然有价值,但离普通创作者、轻量团队和开放网络素材很远。

AHOY 的关键推进,在于它承认一个现实:

互联网上真正大量存在的不是“完美采集素材”,而是“遮挡很多、角度有限、质量参差不齐”的普通视频。

谁能先把这些素材吃下来,谁就更接近下一阶段的数字人生产工具链。

它适合谁看?

1. 虚拟人和数字分身团队

如果你做的是主持人分身、品牌数字人、虚拟导览、在线展示,AHOY 这类方向很值得盯。因为它意味着未来不一定非要搭高成本采集棚,普通素材也可能逐步进入可用流程。

2. 3D 内容创作者

对做 Blender、Unreal、Unity、短片预演、MV 概念片的人来说,这种技术的价值不只是“生成一个人”,而是“生成一个还能接动作的角色基础件”。

3. 动作资产和 AI 编舞相关从业者

如果你关心的是 AI 编舞、舞蹈生成、动作合成,那么这类研究提供的不是成品舞蹈,而是更底层的人体载体。你可以把它理解成:动作模型负责“怎么动”,而这类系统负责“谁来动、能不能持续动”。

4. 广告、短视频、游戏预演团队

很多商业内容不缺创意,缺的是足够低成本、能反复改、能快速迭代的人物资产生产方式。AhoY 这类路线如果继续成熟,会比一次性生成视频更容易进入团队流程。

它和常见路线相比,差别在哪?

最容易理解的方法,是把它和三类常见路线放在一起看。

第一类是多机位扫描。优点是质量高、信息完整,缺点是贵、重、门槛高。

第二类是纯生成视频。优点是出片快,适合做概念演示、短内容和视觉尝鲜;缺点是角色的一致性、可编辑性和复用性通常不够强。

第三类就是 AHOY 这种“从普通视频出发,重建可动画数字人”的路线。它的吸引力在于两头兼顾:

  • 输入端不要求特别豪华的拍摄条件
  • 输出端又不满足于一次性视频,而是更强调可驱动、可重用

这也是它为什么值得出现在 AI 编舞动态栏目里。因为未来真正有价值的动作工作流,往往不是只比“谁生成得更花”,而是比“谁更容易变成长期可复用资产”。

现在就能直接用吗?先别高兴太早

也要说清楚,AHOY 目前仍然是研究成果,不是成熟消费级产品。

几个现实限制不能忽略。

第一,代码暂未公开 release

论文页写得很清楚,目前能看到的是论文和项目页展示,不是一个今天就能下载安装的现成工具。

第二,补全区域本质上带有推断成分

它要处理的是“没拍到”的区域,所以无论方法多先进,都会包含一定程度的合理猜测。对于远景、普通内容也许足够,但如果你要求极高的真实还原,那还是要谨慎。

第三,复杂遮挡和商业稳定性还要继续观察

论文展示的结果已经很有说服力,但真正走向商用,还要看更多样本、更多人物体型、服装类型、镜头条件,以及更长时间序列下的稳定性。

第四,它解决的是一环,不是全部

它并没有直接替你生成完整编舞方案,也不是万能动作引擎。更准确地说,它补的是“从普通视频到可驱动人体资产”这一段。

为什么这条线值得继续盯?

因为 AI 动作生成正在从“看起来会动”转向“能不能被继续编辑和复用”。

这两者差别很大。

前者更像烟花,适合一眼惊艳;后者更像工具链,决定的是你能不能连续做内容、反复改内容、把角色放进更大的工作流里。

AHOY 的价值就在这里:它让人看到一个更现实的方向——不是等所有人都去搭建专业拍摄棚,而是想办法把互联网上原本不完美的视频素材,也变成可驱动的人物资产。

如果这条路线继续成熟,后面受益的不会只有学术圈。虚拟人、AI 编舞、动作捕捉替代流程、3D 短视频、游戏预演、AR/VR 内容制作,都会被影响。

最后一句

这次最值得记住的,不是某个论文名,而是一个更清晰的行业趋势:

AI 动作内容的下一阶段,拼的不只是“能生成动作”,而是“能不能把普通视频里的人,变成一个还能继续演、继续改、继续复用的数字角色”。

AHOY 还不是终点,但它确实把这个方向往前推了一步。

参考来源

  • arXiv:AHOY! Animatable Humans under Occlusion from YouTube Videos with Gaussian Splatting and Video Diffusion Priors

https://arxiv.org/abs/2603.17975

  • 项目页:AHOY! Animatable Humans under Occlusion from YouTube Videos

https://miraymen.github.io/ahoy/

  • 对比候选:Universal Skeleton Understanding via Differentiable Rendering and MLLMs

https://arxiv.org/abs/2603.18003

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。