OmniDance：30万舞蹈视频+音乐驱动，ECCV 2026接收的AI编舞新框架

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

AI编舞领域一直缺两样东西：足够大的舞蹈视频数据集，和一套能把音乐"听懂"再"跳出来"的生成框架。6月29日上线的OmniDance同时补上了这两块短板——30万片段的CIPE-Dance数据集是目前最大的舞蹈视频生成数据集，而OmniDance框架让音乐和文字可以同时驱动视频生成，画面质量不打折扣。论文已被ECCV 2026接收，代码已在GitHub开源。

这是什么

OmniDance是一个多模态驱动的舞蹈视频生成框架，由高德地图AI实验室（AMAP-ML）团队开发。它的核心能力是：你给它一段音乐、一段文字描述，或者两者同时给，它就能生成一段与音乐节奏对齐、语义符合描述的舞蹈视频。

配套发布的CIPE-Dance数据集规模惊人：30万条高质量舞蹈视频片段，总时长超过400小时，覆盖不同舞者、不同场景、不同舞种。团队用一套渐进式专家管线从互联网视频中筛选和标注——先粗筛再精标，确保每条视频都有编舞级别的文字描述。这是目前舞蹈视频生成领域最大的公开数据集。

为什么重要

舞蹈视频生成和普通视频生成最大的区别在于：音乐不只是"背景音"，它必须驱动身体动作的节奏和风格。之前的做法要么只看文字生成动作（音乐成了摆设），要么让音乐信号直接压过文字控制（你说"慢舞"它给你跳街舞）。

OmniDance的核心洞察是：文字和音乐在时间维度上扮演不同角色——文字提供低频的语义结构（"跳一段华尔兹"），音乐提供高频的节奏动态（节拍、重音、速度变化）。把这两者解耦处理，就不会打架了。

技术亮点

框架有三个关键设计：

深度感知特化架构：模型不是只看2D像素，而是理解3D空间中的身体运动。这让生成的舞蹈动作更符合物理规律，不会出现"穿模"或肢体错位。

由易到难课程学习：训练时先让模型学简单的、节奏稳定的舞蹈片段，再逐步加入复杂编舞。这比一开始就喂高难度数据效果好得多——就像人类学跳舞也是从基础步开始。

模态特化时间依赖CFG策略：在推理阶段，文字和音乐的引导信号在不同时间步上使用不同强度。早期步骤让文字主导整体结构，后期步骤让音乐微调节奏细节。这样"文字管骨架，音乐管血肉"。

框架支持三种生成模式：纯文字驱动（TI2V）、纯音乐驱动（MI2V）、文字+音乐联合驱动（MTI2V），覆盖了从"我描述一段舞"到"给首歌让它跳"的全部场景。

对谁有用

短视频创作者：给一段音乐就能生成舞蹈视频，省去编舞和拍摄成本
数字人和虚拟偶像团队：批量生成编舞动画，不再需要逐帧手调
舞蹈教育：学生可以输入音乐快速获得编舞参考，辅助教学
游戏和影视制作：快速生成NPC或角色的舞蹈动作，降低动捕成本

局限

论文刚上arXiv，代码和数据集还在逐步公开中。论文本身也提到这是框架的初始版本，手指和面部动作的生成尚未覆盖——这意味着生成的舞蹈视频在表情和手部细节上还有提升空间。此外，数据集虽然规模大，但标注质量依赖于专家管线的筛选精度，实际效果需要等代码和数据公开后由社区验证。

---

基于 arXiv 论文原文整理。来源：[arXiv:2606.30019](https://arxiv.org/abs/2606.30019)、[GitHub](https://github.com/AMAP-ML/OmniDance)

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。