字节跳动开源 Lance：3B 参数把图像和视频的理解、生成、编辑全装进一个模型

分类: 生图平面类 |发布于: 5/21/2026 |最后更新: 5/21/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

5 月 21 日，字节跳动研究团队正式开源 Lance——一个 3B 活跃参数的原生统一多模态模型，能在单一框架内完成图像和视频的理解、生成与编辑。这是目前开源模型中覆盖模态和任务最广的统一方案之一。

基于多家媒体转述整理。

一个模型，六类任务

Lance 把能力组织为三条输出管线：文字（X2T）、图片（X2I）、视频（X2V）。

理解侧：图像/视频描述、视觉问答、OCR、视觉定位、推理
生成侧：文生图、文生视频、图生视频、主体驱动生成
编辑侧：图像编辑、视频编辑，包括跨模态的多轮一致性编辑

简单说，你不需要在 ChatGPT 看图、Midjourney 画图、Runway 做视频之间来回切换——Lance 试图让一个模型同时接住这些需求。

为什么这事不简单

理解任务需要高层语义特征，生成任务需要低层连续表征来保留纹理、几何和时间动态。两个方向对模型的要求天然矛盾，所以大多数系统干脆拆成独立架构再做桥接。Lance 的做法是：从训练开始就把理解和生成塞进同一个框架，让它们共享上下文但走不同的参数通路。

架构：共享上下文 + 解耦能力

Lance 的核心是双流混合专家（Dual-Stream MoE）架构，从 Qwen2.5-VL 3B 初始化：

理解专家（LLMUND）：处理文本和语义视觉 token，走 next-token prediction 损失
生成专家（LLMGEN）：处理 VAE 潜空间 token，走 flow matching 损失

两个专家共享同一个交错多模态序列——它们看到同样的上下文，但不争同一组参数。这是 Lance 能在 3B 规模同时做好理解和生成的关键。

还有一个细节值得一提：MaPE（Modality-Aware Rotary Positional Encoding）。当语义 token、干净条件 token 和带噪声目标 token 同时出现在一个序列里，标准 3D-RoPE 无法区分它们的边界。MaPE 给每个模态组加上固定时间偏移，实测去掉之后 GenEval 从 80.94 降到 80.56，GEdit-Bench 从 6.86 降到 6.30——编辑质量下滑最明显。

性能数字

在统一模型（understanding + generation）赛道上：

| 基准 | Lance (3B) | 对比 |

|------|-----------|------|

| GenEval | 0.90 | 并列统一模型第一（TUNA 同分） |

| DPG-Bench | 84.67 | TUNA 86.76 领先 |

| VBench | 85.11 | 统一模型最高 |

| MVBench | 62.0 | 统一模型最高，Show-o2 (7B) 为 55.7 |

作为参照：Janus-Pro-7B 在 GenEval 上是 0.80，Show-o2 (7B) 是 0.76。Lance 用 3B 活跃参数匹配了 7B 级别对手的表现。

四阶段训练

预训练（PT）：约 10 亿图文对 + 1.4 亿视频文本对，共 1.5T token，建立基础多模态对齐
持续训练（CT）：引入编辑、主体驱动等交织多任务数据，约 300B token，渐进增加难任务比例
监督微调（SFT）：72B token 高质量数据，收紧指令遵循和编辑精度
强化学习（RL）：用 GRPO 算法，PaddleOCR 作 reward model，专门提升文字渲染质量

整个训练过程最多使用 128 块 GPU——对统一多模态模型来说算非常节制了。

开源状态

GitHub：github.com/bytedance/Lance
HuggingFace：bytedance-research/Lance
论文：arXiv:2605.18678
许可：MIT License

模型权重、推理代码、技术报告均已公开。主体驱动生成（IP 一致性）和布局/骨架条件生成也已支持。

对谁有用

端侧部署开发者：3B 参数让 Lance 在消费级 GPU 上有部署可能，无需多模型串联
图片/视频编辑工作流团队：多轮一致性编辑意味着可以在同一个对话里逐步修改，而不是每次重头来
统一多模态架构研究者：双流 MoE + MaPE 的设计提供了有参考价值的工程解法

还得注意的

视频生成质量与专用的视频模型（如 Wan2.2、Kling）仍有差距，Lance 的视频更偏"能用"而非"惊艳"
3B 参数的天花板意味着高分辨率长视频场景可能力不从心
主体驱动生成（IP 一致性）效果不错，但跨场景的身份保持稳定性还有提升空间

Lance 的意义不在于某个单一指标碾压全场，而在于证明了一个紧凑的统一模型可以同时覆盖图像和视频的理解、生成、编辑——并且开源。对想省掉"多模型拼接"麻烦的团队来说，这是个值得试的起点。

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。