HiDream-O1-Image:扔掉VAE和外部文本编码器,8B参数打平27B

分类: 生图平面类 |发布于: 5/14/2026 |最后更新: 5/14/2026
HiDream-O1-Image:扔掉VAE和外部文本编码器,8B参数打平27B

5 月 11 日,HiDream AI 在 arXiv 发布了 HiDream-O1-Image——一个完全丢弃外部 VAE 和预训练文本编码器的端到端像素空间图像生成基础模型。8B 参数版本就能打平甚至超越 27B 的 Qwen-Image,架构还能扩展到 200B+ 参数创下新 SOTA。代码和模型已经开源。

这是什么

过去两年,图像生成模型的架构一直是"拼装"模式:VAE 把图片压进隐空间,CLIP 或 T5 把文字编码成向量,Diffusion Transformer 在隐空间里做去噪——三个模块各管一段,靠接口拼在一起。

HiDream-O1-Image 彻底换了个思路:把原始像素、文本 token、任务条件全部映射到同一个共享 token 空间,用一个 Unified Transformer(UiT)统一处理所有输入。不需要 VAE 做图像压缩,也不需要 CLIP/T5 做文本编码——图像和文字从同一个网络里学出来。

这意味着什么?过去 latent diffusion 的信息瓶颈——高频率细节在 VAE 压缩时丢掉、文本和图像编码空间天然对不齐——在原生统一架构里不存在了。

而且它不是一个只做文生图的单任务模型。文生图、指令式图像编辑、角色一致性个性化生成,这三个任务在 HiDream-O1-Image 里被统一为同一个"上下文推理"过程——模型看到的输入不同,但处理方式一致。

为什么重要:三件事合在一起才是新闻

架构范式变化。 从"拼装"到"原生统一",这不是功能升级,是范式转换。NLP 领域已经证明了统一 token 空间 + 大 Transformer 的路走得通(GPT 系列就是例子),HiDream 把这个思路搬到了图像生成上。和它对比的是两类现有方案:latent DiT(图5a,用 VAE 压缩 + 外部文本编码器)和像素空间 DiT(图5b,扔了 VAE 但还留着外部文本编码器)。HiDream 是图5c——两边都扔了。

效率突破。 8B 参数打平 27B Qwen-Image,甚至超越了 Google 的 Nano Banana 2.0(闭源模型)。参数效率差距超过 3 倍。这不是靠堆算力换来的,而是架构统一带来的红利——没有模块间的信息损耗,同样的参数能做更有效的事。

多任务统一。 文生图 + 指令编辑 + 角色一致性个性化,一个模型全搞定。过去做编辑要换 Flux Kontext 或 Inpaint 模型,做角色一致性要上 IP-Adapter 或 PuLID,现在一个 HiDream 就行。对于创作者来说,这意味着工作流不用在多个工具之间切来切去了。

核心架构拆解

统一多模态分词。 原始图像被切成 patch 直接作为 token,文本经过内部 tokenizer 也变成 token,任务条件(编辑指令、参考图)同样映射为 token——三种输入进入同一个嵌入空间,没有模态间的"翻译"损耗。

Unified Transformer(UiT)。 和 LLM 处理不同任务的方式类似:所有 token 进入同一个 Transformer 骨干,注意力机制在像素 token、文本 token、条件 token 之间自由交互。去噪过程直接在像素空间完成,输出干净图像 patch 后拼回完整图片。

推理型提示代理。 复杂的用户指令(比如"把这张图里的猫换成一只戴着礼帽的柯基,保持背景和光线不变")会被 Prompt Agent 先"想一遍"——显式推理出需要改什么、保持什么,再送进生成流程。这个 Agent 也开源了。

渐进式预训练 + 后训练。 先大规模预训练通用能力,再针对特定任务做后训练优化。另外还做了对抗扩散蒸馏(Adversarial Diffusion Distillation),让推理更快。

量化结果

  • 8B vs 27B: HiDream-O1-Image (8B) 在 HPSv3、DPG-Bench、GenEval 等主流基准上打平或超越 Qwen-Image (27B),同时超越闭源的 Nano Banana 2.0
  • 200B+ Pro: 扩展到 200B+ 参数后,在多个基准上创下新 SOTA
  • 支持任务: 文生图、指令式图像编辑、角色一致性个性化、多面板分镜生成
  • 分辨率: 支持最高 2048×2048 输出
  • 文字渲染: 论文展示了复杂长文字的精准渲染能力,这是像素空间模型的优势之一

对谁有用

  • 开源社区和开发者: 代码和模型已在 GitHub 和 HuggingFace 上开源,可以直接上手。8B 规格在消费级 GPU 上就能推理。
  • 创作者: 一个模型覆盖生成、编辑、个性化三大场景,工作流大幅简化。角色一致性功能对插画、漫画、品牌视觉制作尤其有用。
  • 研究者: 首次在像素空间 DiT 上验证了从 8B 到 200B+ 的 scaling law,证明了原生统一架构的可扩展性。

需要冷静看待的

  • 这是 arXiv 预印本,尚未经同行评审
  • 200B+ 模型的推理成本和部署门槛极高,绝大多数团队用不起
  • 像素空间模型训练的算力需求远大于 latent 模型——8B 之外,200B+ 的训练成本是多少?论文没有详细披露
  • 目前开源的是 8B 版本,200B+ Pro 是否开源还是未知数
  • HiDream AI 是相对年轻的团队,长期工程维护和生态建设能力还需时间验证
  • 多任务统一不代表每个任务都是最强——在单一任务上,专用模型(比如专门做编辑的 Flux Kontext)可能还有优势

---

*基于 arXiv 预印本及项目开源仓库整理。来源:arXiv:2605.11061,提交时间 2026年5月11日。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。