Seedance 2.0 登陆 CapCut:字节视频模型触及数亿用户,OpenAI 却在关停 Sora

分类: 视频模型 |发布于: 5/10/2026 |最后更新: 5/10/2026
Seedance 2.0 登陆 CapCut:字节跳动视频模型触及数亿用户,OpenAI 却在关停 Sora

Seedance 2.0 登陆 CapCut:字节跳动视频模型触及数亿用户,OpenAI 却在关停 Sora

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

当 OpenAI 宣布即将关停 Sora 的同时,字节跳动把自己最强的视频生成模型 Seedance 2.0 塞进了 CapCut——一个月活 7.36 亿的剪辑工具。这一进一退,不只是两家公司的产品决策差异,更是 AI 视频生成市场格局变化的缩影。

事件概要

5 月 8 日,ByteDance 将旗下多模态视频生成模型 Seedance 2.0 正式接入 CapCut 海外版。此前该模型仅在中国大陆的剪映和 Dreamina 上线,如今扩展至东南亚、拉美、非洲、中东、部分欧洲、日本和美国等地区的付费用户。同时,Dreamina 网页端也开放了 Seedance 2.0 的官方入口。

与此同时,OpenAI 已宣布将在 3 月关闭 Sora 应用和 API——据报道,Sora 日活从上线时的约 100 万降至不足 50 万,而运营成本每天高达约 100 万美元。

Seedance 2.0 能做什么

多模态输入,音画一体输出

Seedance 2.0 支持文本、图片、视频片段和音频作为输入,最多接受 9 张图片 + 3 段视频 + 3 段音频。输出 4–15 秒、480p 或 720p 的视频,同时自动生成对白、环境音和背景音乐——音画同步不是后期配音,而是和画面一起生成出来的。

6 种宽高比都支持:21:9、16:9、4:3、1:1、3:4、9:16,从电影宽屏到手机竖屏都能覆盖。

关键能力拆解

角色一致性。 上传一张人物参考图,模型在多镜头切换中保持同一人物的外貌特征,不会出现"换个镜头换了个人"的情况。

多镜头叙事。 单次生成中可以包含多个镜头和切换——模型一次性规划出多机位叙事,而不是先分别生成再拼接。这让角色、场景在不同镜头间的连贯性大幅提高。

Lip Sync 多语言对白。 视频中的角色说话时,口型与音频自动对齐,支持多种语言。这意味着你可以让一个角色说英语或说中文,口型都跟得上。

可控运镜与灯光。 通过提示词控制镜头运动(推拉摇移)、光照和氛围,不用手动调参数。

四种工作模式。 参考生成(用参考图/视频的风格、动作生成新内容)、视频编辑(修改指定区域/人物/动作/音频)、视频续写(向前或向后扩展已有视频)、组合模式(如用一张参考图替换视频中的角色)。四种模式可以自由搭配,比如"用参考图的角色替换现有视频里的人物,同时续写后半段"。

架构特点

ByteDance 将架构描述为"稀疏"设计。核心技术来自 arXiv 论文(2604.14148)——从上一代的"音视频并行生成"演进为"统一系统内联合生成"。区别在于:以前是视频和音频各做各的再对齐,现在是在同一个模型里一起生成,音画天然同步。

榜单表现

在两个独立的人工偏好排行榜上,Seedance 2.0 均进入前二:

  • arena.ai:文生视频 1460 Elo、图生视频 1454 Elo,两项均列第一。但成绩标注为"初步",最终排名可能调整。
  • Artificial Analysis:图生视频+音画同步类别 1182 Elo 排第一;文生视频(含/不含音频)和图生视频(不含音频)三个类别排第二,仅次于阿里 HappyHorse-1.0。

两个排行榜的头名之争,目前就是 Seedance 2.0 和 HappyHorse-1.0 之间十几个 Elo 分的差距。

定价与可用性

  • CapCut 付费版:直接在编辑器中调用,移动端、桌面端和网页端均可使用
  • Dreamina 网页端:VIP 用户可免费试用
  • API:通过 ByteDance 旗下的 BytePlus 和火山引擎提供,$0.30/秒(720p 含音频),快速模式 $0.24/秒
  • 第三方:Higgsfield.ai 等平台也可调用

安全与版权争议

Seedance 2.0 在中国上线后不久,一段生成视频出现了 Tom Cruise 和 Brad Pitt 的肖像,引发好莱坞六大制片公司联名要求 ByteDance 停止使用版权素材训练模型,并阻止用户生成版权相关内容。争议至今未解决。

CapCut 版已加入安全措施:屏蔽包含真人面部或版权角色的输入图片,输出来源标注不可见水印。但这些安全措施是否延伸到 API 调用,尚不明确。

这件事为什么重要

分发渠道才是护城河。 视频模型本身的能力差距正在缩小——Seedance 2.0 和 HappyHorse-1.0 的 Elo 分差只有十几分。但 ByteDance 同时拥有模型和编辑器:CapCut 7.36 亿月活意味着 Seedance 不需要单独获客,用户在剪辑视频时自然触达。这是 OpenAI 所不具备的优势。

美中视频模型格局逆转。 过去一个月,美国开发商在消费端撤退——OpenAI 关停 Sora,日活腰斩、每天烧百万美元的模式难以为继。同一时期,中国开发商加速发布:阿里 HappyHorse-1.0 登顶多个排行榜,腾讯更新混元视频模型,字节 Seedance 2.0 借 CapCut 出海。三家几乎同时把顶级视频模型推向全球市场。

音画同步正成为标配。 从 Google Veo 3 到 Seedance 2.0,"视频+音频一体生成"正取代"先生成视频再配音"的旧模式。这对内容创作者意味着更少的后期工作和更自然的视听体验,同时也对深度伪造提出了更紧迫的治理问题。

局限

  • 模型参数量、训练数据和架构细节未公开,社区无法独立复现或审计
  • ByteDance 自述在细节稳定性、超真实感、音频失真、多主体一致性、文字渲染和复杂编辑效果上仍有不足
  • 排行榜成绩标注为"初步",最终排名可能变化
  • API 调用是否受 CapCut 版同等安全措施保护,尚不明确
  • 720p 的输出分辨率相比部分竞品仍有差距

---

*基于 DeepLearning.AI The Batch 报道、CapCut 官方产品页、Dreamina 官方站点及多家媒体转述整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。