OmniDance:30万舞蹈视频+音乐驱动,ECCV 2026接收的AI编舞新框架
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
AI编舞领域一直缺两样东西:足够大的舞蹈视频数据集,和一套能把音乐"听懂"再"跳出来"的生成框架。6月29日上线的OmniDance同时补上了这两块短板——30万片段的CIPE-Dance数据集是目前最大的舞蹈视频生成数据集,而OmniDance框架让音乐和文字可以同时驱动视频生成,画面质量不打折扣。论文已被ECCV 2026接收,代码已在GitHub开源。
这是什么
OmniDance是一个多模态驱动的舞蹈视频生成框架,由高德地图AI实验室(AMAP-ML)团队开发。它的核心能力是:你给它一段音乐、一段文字描述,或者两者同时给,它就能生成一段与音乐节奏对齐、语义符合描述的舞蹈视频。
配套发布的CIPE-Dance数据集规模惊人:30万条高质量舞蹈视频片段,总时长超过400小时,覆盖不同舞者、不同场景、不同舞种。团队用一套渐进式专家管线从互联网视频中筛选和标注——先粗筛再精标,确保每条视频都有编舞级别的文字描述。这是目前舞蹈视频生成领域最大的公开数据集。
为什么重要
舞蹈视频生成和普通视频生成最大的区别在于:音乐不只是"背景音",它必须驱动身体动作的节奏和风格。之前的做法要么只看文字生成动作(音乐成了摆设),要么让音乐信号直接压过文字控制(你说"慢舞"它给你跳街舞)。
OmniDance的核心洞察是:文字和音乐在时间维度上扮演不同角色——文字提供低频的语义结构("跳一段华尔兹"),音乐提供高频的节奏动态(节拍、重音、速度变化)。把这两者解耦处理,就不会打架了。
技术亮点
框架有三个关键设计:
深度感知特化架构:模型不是只看2D像素,而是理解3D空间中的身体运动。这让生成的舞蹈动作更符合物理规律,不会出现"穿模"或肢体错位。
由易到难课程学习:训练时先让模型学简单的、节奏稳定的舞蹈片段,再逐步加入复杂编舞。这比一开始就喂高难度数据效果好得多——就像人类学跳舞也是从基础步开始。
模态特化时间依赖CFG策略:在推理阶段,文字和音乐的引导信号在不同时间步上使用不同强度。早期步骤让文字主导整体结构,后期步骤让音乐微调节奏细节。这样"文字管骨架,音乐管血肉"。
框架支持三种生成模式:纯文字驱动(TI2V)、纯音乐驱动(MI2V)、文字+音乐联合驱动(MTI2V),覆盖了从"我描述一段舞"到"给首歌让它跳"的全部场景。
对谁有用
- 短视频创作者:给一段音乐就能生成舞蹈视频,省去编舞和拍摄成本
- 数字人和虚拟偶像团队:批量生成编舞动画,不再需要逐帧手调
- 舞蹈教育:学生可以输入音乐快速获得编舞参考,辅助教学
- 游戏和影视制作:快速生成NPC或角色的舞蹈动作,降低动捕成本
局限
论文刚上arXiv,代码和数据集还在逐步公开中。论文本身也提到这是框架的初始版本,手指和面部动作的生成尚未覆盖——这意味着生成的舞蹈视频在表情和手部细节上还有提升空间。此外,数据集虽然规模大,但标注质量依赖于专家管线的筛选精度,实际效果需要等代码和数据公开后由社区验证。
---
基于 arXiv 论文原文整理。来源:[arXiv:2606.30019](https://arxiv.org/abs/2606.30019)、[GitHub](https://github.com/AMAP-ML/OmniDance)
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。