腾讯优图开源 L2P：6B 像素空间扩散模型，不用 VAE 也能生成 1K 高清图

分类: 生图平面类 |发布于: 5/25/2026 |最后更新: 5/25/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

主流文生图模型（Stable Diffusion、FLUX、Z-Image 等）都在"潜空间"里工作——先用 VAE 把图像压缩成小尺寸的隐向量，在隐向量上做扩散，最后再解码回像素。这条路线效率高，但 VAE 本身会引入信息损失，细节还原和高频纹理一直是瓶颈。

腾讯优图实验室刚刚开源的 L2P（Latent-to-Pixel）提出了另一条路：把已经训练好的潜空间扩散模型，用极低成本迁移到像素空间，直接在原始像素上做端到端生成，彻底绕开 VAE 解码带来的质量上限。

L2P 做了什么

L2P 不是从零训练一个像素空间模型——那样成本太高。它的核心思路是"迁移"：

论文称这种方式为"解锁潜在潜力"——潜空间模型已经学到了丰富的图像语义，L2P 只是把这些知识搬到像素空间去发挥。

5 月 22-23 日，L2P 一次性放出了完整的开源包：

对研究者来说，这意味着可以拿自己的潜空间模型做同样的迁移实验；对开发者来说，可以直接跑推理看效果。

潜空间路线的核心问题是 VAE 的信息瓶颈：压缩比越高，细节丢失越多；压缩比低，计算量又上去了。像素空间生成绕开了这个两难：

代价是计算量更大——像素空间的序列长度远超潜空间。L2P 的贡献在于证明了通过迁移学习，可以用相对低的训练成本获得像素空间的质量优势。

L2P 代表了文生图技术路线的一个有趣分支：不是在潜空间里继续卷，而是把潜空间模型的能力"搬"到像素空间。对于追求极致细节还原的场景（文字渲染、纹理生成、医学影像等），这条路线值得关注。

本文基于 GitHub 开源仓库、arXiv 技术报告及 HuggingFace 模型页整理。

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。