字节跳动开源 Lance:3B 参数把图像和视频的理解、生成、编辑全装进一个模型

分类: 生图平面类 |发布于: 5/21/2026 |最后更新: 5/21/2026
字节跳动开源 Lance:3B 参数把图像和视频的理解、生成、编辑全装进一个模型

字节跳动开源 Lance:3B 参数把图像和视频的理解、生成、编辑全装进一个模型

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

5 月 21 日,字节跳动研究团队正式开源 Lance——一个 3B 活跃参数的原生统一多模态模型,能在单一框架内完成图像和视频的理解、生成与编辑。这是目前开源模型中覆盖模态和任务最广的统一方案之一。

基于多家媒体转述整理。

一个模型,六类任务

Lance 把能力组织为三条输出管线:文字(X2T)、图片(X2I)、视频(X2V)。

  • 理解侧:图像/视频描述、视觉问答、OCR、视觉定位、推理
  • 生成侧:文生图、文生视频、图生视频、主体驱动生成
  • 编辑侧:图像编辑、视频编辑,包括跨模态的多轮一致性编辑

简单说,你不需要在 ChatGPT 看图、Midjourney 画图、Runway 做视频之间来回切换——Lance 试图让一个模型同时接住这些需求。

为什么这事不简单

理解任务需要高层语义特征,生成任务需要低层连续表征来保留纹理、几何和时间动态。两个方向对模型的要求天然矛盾,所以大多数系统干脆拆成独立架构再做桥接。Lance 的做法是:从训练开始就把理解和生成塞进同一个框架,让它们共享上下文但走不同的参数通路。

架构:共享上下文 + 解耦能力

Lance 的核心是双流混合专家(Dual-Stream MoE)架构,从 Qwen2.5-VL 3B 初始化:

  • 理解专家(LLMUND):处理文本和语义视觉 token,走 next-token prediction 损失
  • 生成专家(LLMGEN):处理 VAE 潜空间 token,走 flow matching 损失

两个专家共享同一个交错多模态序列——它们看到同样的上下文,但不争同一组参数。这是 Lance 能在 3B 规模同时做好理解和生成的关键。

还有一个细节值得一提:MaPE(Modality-Aware Rotary Positional Encoding)。当语义 token、干净条件 token 和带噪声目标 token 同时出现在一个序列里,标准 3D-RoPE 无法区分它们的边界。MaPE 给每个模态组加上固定时间偏移,实测去掉之后 GenEval 从 80.94 降到 80.56,GEdit-Bench 从 6.86 降到 6.30——编辑质量下滑最明显。

性能数字

在统一模型(understanding + generation)赛道上:

| 基准 | Lance (3B) | 对比 |

|------|-----------|------|

| GenEval | 0.90 | 并列统一模型第一(TUNA 同分) |

| DPG-Bench | 84.67 | TUNA 86.76 领先 |

| VBench | 85.11 | 统一模型最高 |

| MVBench | 62.0 | 统一模型最高,Show-o2 (7B) 为 55.7 |

作为参照:Janus-Pro-7B 在 GenEval 上是 0.80,Show-o2 (7B) 是 0.76。Lance 用 3B 活跃参数匹配了 7B 级别对手的表现。

四阶段训练

  1. 预训练(PT):约 10 亿图文对 + 1.4 亿视频文本对,共 1.5T token,建立基础多模态对齐
  2. 持续训练(CT):引入编辑、主体驱动等交织多任务数据,约 300B token,渐进增加难任务比例
  3. 监督微调(SFT):72B token 高质量数据,收紧指令遵循和编辑精度
  4. 强化学习(RL):用 GRPO 算法,PaddleOCR 作 reward model,专门提升文字渲染质量

整个训练过程最多使用 128 块 GPU——对统一多模态模型来说算非常节制了。

开源状态

  • GitHub:github.com/bytedance/Lance
  • HuggingFace:bytedance-research/Lance
  • 论文:arXiv:2605.18678
  • 许可:MIT License

模型权重、推理代码、技术报告均已公开。主体驱动生成(IP 一致性)和布局/骨架条件生成也已支持。

对谁有用

  • 端侧部署开发者:3B 参数让 Lance 在消费级 GPU 上有部署可能,无需多模型串联
  • 图片/视频编辑工作流团队:多轮一致性编辑意味着可以在同一个对话里逐步修改,而不是每次重头来
  • 统一多模态架构研究者:双流 MoE + MaPE 的设计提供了有参考价值的工程解法

还得注意的

  • 视频生成质量与专用的视频模型(如 Wan2.2、Kling)仍有差距,Lance 的视频更偏"能用"而非"惊艳"
  • 3B 参数的天花板意味着高分辨率长视频场景可能力不从心
  • 主体驱动生成(IP 一致性)效果不错,但跨场景的身份保持稳定性还有提升空间

Lance 的意义不在于某个单一指标碾压全场,而在于证明了一个紧凑的统一模型可以同时覆盖图像和视频的理解、生成、编辑——并且开源。对想省掉"多模型拼接"麻烦的团队来说,这是个值得试的起点。

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。