腾讯优图开源 L2P:6B 像素空间扩散模型,不用 VAE 也能生成 1K 高清图

分类: 生图平面类 |发布于: 5/25/2026 |最后更新: 5/25/2026
腾讯优图开源 L2P:6B 像素空间扩散模型,不用 VAE 也能生成 1K 高清图

腾讯优图开源 L2P:6B 像素空间扩散模型,不用 VAE 也能生成 1K 高清图

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

主流文生图模型(Stable Diffusion、FLUX、Z-Image 等)都在"潜空间"里工作——先用 VAE 把图像压缩成小尺寸的隐向量,在隐向量上做扩散,最后再解码回像素。这条路线效率高,但 VAE 本身会引入信息损失,细节还原和高频纹理一直是瓶颈。

腾讯优图实验室刚刚开源的 L2P(Latent-to-Pixel)提出了另一条路:把已经训练好的潜空间扩散模型,用极低成本迁移到像素空间,直接在原始像素上做端到端生成,彻底绕开 VAE 解码带来的质量上限。

L2P 做了什么

L2P 不是从零训练一个像素空间模型——那样成本太高。它的核心思路是"迁移":

  1. 拿一个现成的潜空间 DiT 模型(比如 Z-Image-Turbo)的权重
  2. 通过专门设计的权重转换脚本,把这些权重初始化为像素空间模型的起点
  3. 用少量数据和算力做微调,就能得到一个在像素空间直接生成的模型

论文称这种方式为"解锁潜在潜力"——潜空间模型已经学到了丰富的图像语义,L2P 只是把这些知识搬到像素空间去发挥。

模型规格

  • 参数量:6B(基于 Z-Image 架构)
  • 输出分辨率:1024×1024
  • 推理方式:端到端像素生成,无需外部 VAE
  • 路线图中提到 4K/8K/10K 超高分辨率生成正在开发

开源了什么

5 月 22-23 日,L2P 一次性放出了完整的开源包:

  • 1K 分辨率推理代码和预训练权重(HuggingFace 可下载)
  • 完整训练代码(包括权重转换、训练、合并三步流程)
  • 训练数据集
  • HuggingFace 在线 Demo(由 multimodalart 社区搭建)

对研究者来说,这意味着可以拿自己的潜空间模型做同样的迁移实验;对开发者来说,可以直接跑推理看效果。

像素空间生图有什么好处

潜空间路线的核心问题是 VAE 的信息瓶颈:压缩比越高,细节丢失越多;压缩比低,计算量又上去了。像素空间生成绕开了这个两难:

  • 理论上没有 VAE 引入的模糊和伪影
  • 高频细节(文字、纹理、细线条)保留更完整
  • 模型输出就是最终图像,不需要额外的后处理步骤

代价是计算量更大——像素空间的序列长度远超潜空间。L2P 的贡献在于证明了通过迁移学习,可以用相对低的训练成本获得像素空间的质量优势。

局限

  • 目前只支持 1K 分辨率,更高分辨率还在开发中
  • 推理速度比同参数量的潜空间模型慢(像素序列更长)
  • 仅支持文生图,暂无图像编辑、图生图等扩展能力
  • 兼容更多潜空间模型的适配工作仍在进行中

小结

L2P 代表了文生图技术路线的一个有趣分支:不是在潜空间里继续卷,而是把潜空间模型的能力"搬"到像素空间。对于追求极致细节还原的场景(文字渲染、纹理生成、医学影像等),这条路线值得关注。

本文基于 GitHub 开源仓库、arXiv 技术报告及 HuggingFace 模型页整理。

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。