HiDream-O1-Image：扔掉VAE和外部文本编码器，8B参数打平27B

分类: 生图平面类 |发布于: 5/14/2026 |最后更新: 5/14/2026

5 月 11 日，HiDream AI 在 arXiv 发布了 HiDream-O1-Image——一个完全丢弃外部 VAE 和预训练文本编码器的端到端像素空间图像生成基础模型。8B 参数版本就能打平甚至超越 27B 的 Qwen-Image，架构还能扩展到 200B+ 参数创下新 SOTA。代码和模型已经开源。

这是什么

过去两年，图像生成模型的架构一直是"拼装"模式：VAE 把图片压进隐空间，CLIP 或 T5 把文字编码成向量，Diffusion Transformer 在隐空间里做去噪——三个模块各管一段，靠接口拼在一起。

HiDream-O1-Image 彻底换了个思路：把原始像素、文本 token、任务条件全部映射到同一个共享 token 空间，用一个 Unified Transformer（UiT）统一处理所有输入。不需要 VAE 做图像压缩，也不需要 CLIP/T5 做文本编码——图像和文字从同一个网络里学出来。

这意味着什么？过去 latent diffusion 的信息瓶颈——高频率细节在 VAE 压缩时丢掉、文本和图像编码空间天然对不齐——在原生统一架构里不存在了。

而且它不是一个只做文生图的单任务模型。文生图、指令式图像编辑、角色一致性个性化生成，这三个任务在 HiDream-O1-Image 里被统一为同一个"上下文推理"过程——模型看到的输入不同，但处理方式一致。

为什么重要：三件事合在一起才是新闻

架构范式变化。 从"拼装"到"原生统一"，这不是功能升级，是范式转换。NLP 领域已经证明了统一 token 空间 + 大 Transformer 的路走得通（GPT 系列就是例子），HiDream 把这个思路搬到了图像生成上。和它对比的是两类现有方案：latent DiT（图5a，用 VAE 压缩 + 外部文本编码器）和像素空间 DiT（图5b，扔了 VAE 但还留着外部文本编码器）。HiDream 是图5c——两边都扔了。

效率突破。 8B 参数打平 27B Qwen-Image，甚至超越了 Google 的 Nano Banana 2.0（闭源模型）。参数效率差距超过 3 倍。这不是靠堆算力换来的，而是架构统一带来的红利——没有模块间的信息损耗，同样的参数能做更有效的事。

多任务统一。 文生图 + 指令编辑 + 角色一致性个性化，一个模型全搞定。过去做编辑要换 Flux Kontext 或 Inpaint 模型，做角色一致性要上 IP-Adapter 或 PuLID，现在一个 HiDream 就行。对于创作者来说，这意味着工作流不用在多个工具之间切来切去了。

核心架构拆解

统一多模态分词。 原始图像被切成 patch 直接作为 token，文本经过内部 tokenizer 也变成 token，任务条件（编辑指令、参考图）同样映射为 token——三种输入进入同一个嵌入空间，没有模态间的"翻译"损耗。

Unified Transformer（UiT）。 和 LLM 处理不同任务的方式类似：所有 token 进入同一个 Transformer 骨干，注意力机制在像素 token、文本 token、条件 token 之间自由交互。去噪过程直接在像素空间完成，输出干净图像 patch 后拼回完整图片。

推理型提示代理。 复杂的用户指令（比如"把这张图里的猫换成一只戴着礼帽的柯基，保持背景和光线不变"）会被 Prompt Agent 先"想一遍"——显式推理出需要改什么、保持什么，再送进生成流程。这个 Agent 也开源了。

渐进式预训练 + 后训练。 先大规模预训练通用能力，再针对特定任务做后训练优化。另外还做了对抗扩散蒸馏（Adversarial Diffusion Distillation），让推理更快。

量化结果

8B vs 27B： HiDream-O1-Image (8B) 在 HPSv3、DPG-Bench、GenEval 等主流基准上打平或超越 Qwen-Image (27B)，同时超越闭源的 Nano Banana 2.0
200B+ Pro： 扩展到 200B+ 参数后，在多个基准上创下新 SOTA
支持任务： 文生图、指令式图像编辑、角色一致性个性化、多面板分镜生成
分辨率： 支持最高 2048×2048 输出
文字渲染： 论文展示了复杂长文字的精准渲染能力，这是像素空间模型的优势之一

对谁有用

开源社区和开发者： 代码和模型已在 GitHub 和 HuggingFace 上开源，可以直接上手。8B 规格在消费级 GPU 上就能推理。
创作者： 一个模型覆盖生成、编辑、个性化三大场景，工作流大幅简化。角色一致性功能对插画、漫画、品牌视觉制作尤其有用。
研究者： 首次在像素空间 DiT 上验证了从 8B 到 200B+ 的 scaling law，证明了原生统一架构的可扩展性。

需要冷静看待的

这是 arXiv 预印本，尚未经同行评审
200B+ 模型的推理成本和部署门槛极高，绝大多数团队用不起
像素空间模型训练的算力需求远大于 latent 模型——8B 之外，200B+ 的训练成本是多少？论文没有详细披露
目前开源的是 8B 版本，200B+ Pro 是否开源还是未知数
HiDream AI 是相对年轻的团队，长期工程维护和生态建设能力还需时间验证
多任务统一不代表每个任务都是最强——在单一任务上，专用模型（比如专门做编辑的 Flux Kontext）可能还有优势

---

*基于 arXiv 预印本及项目开源仓库整理。来源：arXiv:2605.11061，提交时间 2026年5月11日。*

参考来源

https://arxiv.org/abs/2605.11061

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。