Seedance 2.0 登陆 CapCut：字节视频模型触及数亿用户，OpenAI 却在关停 Sora

分类: 视频模型 |发布于: 5/10/2026 |最后更新: 5/10/2026

Seedance 2.0 登陆 CapCut：字节跳动视频模型触及数亿用户，OpenAI 却在关停 Sora

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

当 OpenAI 宣布即将关停 Sora 的同时，字节跳动把自己最强的视频生成模型 Seedance 2.0 塞进了 CapCut——一个月活 7.36 亿的剪辑工具。这一进一退，不只是两家公司的产品决策差异，更是 AI 视频生成市场格局变化的缩影。

事件概要

5 月 8 日，ByteDance 将旗下多模态视频生成模型 Seedance 2.0 正式接入 CapCut 海外版。此前该模型仅在中国大陆的剪映和 Dreamina 上线，如今扩展至东南亚、拉美、非洲、中东、部分欧洲、日本和美国等地区的付费用户。同时，Dreamina 网页端也开放了 Seedance 2.0 的官方入口。

与此同时，OpenAI 已宣布将在 3 月关闭 Sora 应用和 API——据报道，Sora 日活从上线时的约 100 万降至不足 50 万，而运营成本每天高达约 100 万美元。

Seedance 2.0 能做什么

多模态输入，音画一体输出

Seedance 2.0 支持文本、图片、视频片段和音频作为输入，最多接受 9 张图片 + 3 段视频 + 3 段音频。输出 4–15 秒、480p 或 720p 的视频，同时自动生成对白、环境音和背景音乐——音画同步不是后期配音，而是和画面一起生成出来的。

6 种宽高比都支持：21:9、16:9、4:3、1:1、3:4、9:16，从电影宽屏到手机竖屏都能覆盖。

关键能力拆解

角色一致性。 上传一张人物参考图，模型在多镜头切换中保持同一人物的外貌特征，不会出现"换个镜头换了个人"的情况。

多镜头叙事。 单次生成中可以包含多个镜头和切换——模型一次性规划出多机位叙事，而不是先分别生成再拼接。这让角色、场景在不同镜头间的连贯性大幅提高。

Lip Sync 多语言对白。 视频中的角色说话时，口型与音频自动对齐，支持多种语言。这意味着你可以让一个角色说英语或说中文，口型都跟得上。

可控运镜与灯光。 通过提示词控制镜头运动（推拉摇移）、光照和氛围，不用手动调参数。

四种工作模式。 参考生成（用参考图/视频的风格、动作生成新内容）、视频编辑（修改指定区域/人物/动作/音频）、视频续写（向前或向后扩展已有视频）、组合模式（如用一张参考图替换视频中的角色）。四种模式可以自由搭配，比如"用参考图的角色替换现有视频里的人物，同时续写后半段"。

架构特点

ByteDance 将架构描述为"稀疏"设计。核心技术来自 arXiv 论文（2604.14148）——从上一代的"音视频并行生成"演进为"统一系统内联合生成"。区别在于：以前是视频和音频各做各的再对齐，现在是在同一个模型里一起生成，音画天然同步。

榜单表现

在两个独立的人工偏好排行榜上，Seedance 2.0 均进入前二：

arena.ai：文生视频 1460 Elo、图生视频 1454 Elo，两项均列第一。但成绩标注为"初步"，最终排名可能调整。
Artificial Analysis：图生视频+音画同步类别 1182 Elo 排第一；文生视频（含/不含音频）和图生视频（不含音频）三个类别排第二，仅次于阿里 HappyHorse-1.0。

两个排行榜的头名之争，目前就是 Seedance 2.0 和 HappyHorse-1.0 之间十几个 Elo 分的差距。

定价与可用性

CapCut 付费版：直接在编辑器中调用，移动端、桌面端和网页端均可使用
Dreamina 网页端：VIP 用户可免费试用
API：通过 ByteDance 旗下的 BytePlus 和火山引擎提供，$0.30/秒（720p 含音频），快速模式 $0.24/秒
第三方：Higgsfield.ai 等平台也可调用

安全与版权争议

Seedance 2.0 在中国上线后不久，一段生成视频出现了 Tom Cruise 和 Brad Pitt 的肖像，引发好莱坞六大制片公司联名要求 ByteDance 停止使用版权素材训练模型，并阻止用户生成版权相关内容。争议至今未解决。

CapCut 版已加入安全措施：屏蔽包含真人面部或版权角色的输入图片，输出来源标注不可见水印。但这些安全措施是否延伸到 API 调用，尚不明确。

这件事为什么重要

分发渠道才是护城河。 视频模型本身的能力差距正在缩小——Seedance 2.0 和 HappyHorse-1.0 的 Elo 分差只有十几分。但 ByteDance 同时拥有模型和编辑器：CapCut 7.36 亿月活意味着 Seedance 不需要单独获客，用户在剪辑视频时自然触达。这是 OpenAI 所不具备的优势。

美中视频模型格局逆转。 过去一个月，美国开发商在消费端撤退——OpenAI 关停 Sora，日活腰斩、每天烧百万美元的模式难以为继。同一时期，中国开发商加速发布：阿里 HappyHorse-1.0 登顶多个排行榜，腾讯更新混元视频模型，字节 Seedance 2.0 借 CapCut 出海。三家几乎同时把顶级视频模型推向全球市场。

音画同步正成为标配。 从 Google Veo 3 到 Seedance 2.0，"视频+音频一体生成"正取代"先生成视频再配音"的旧模式。这对内容创作者意味着更少的后期工作和更自然的视听体验，同时也对深度伪造提出了更紧迫的治理问题。

局限

模型参数量、训练数据和架构细节未公开，社区无法独立复现或审计
ByteDance 自述在细节稳定性、超真实感、音频失真、多主体一致性、文字渲染和复杂编辑效果上仍有不足
排行榜成绩标注为"初步"，最终排名可能变化
API 调用是否受 CapCut 版同等安全措施保护，尚不明确
720p 的输出分辨率相比部分竞品仍有差距

---

*基于 DeepLearning.AI The Batch 报道、CapCut 官方产品页、Dreamina 官方站点及多家媒体转述整理。*

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。