8B 参数反超 GPT Image 2：智象未来开源 HiDream-O1-Image，砍掉 VAE 做原生统一生图

分类: 生图平面类 |发布于: 5/10/2026 |最后更新: 5/10/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

5 月 8 日，智象未来（HiDream.ai）开源发布新一代图像生成基础模型 HiDream-O1-Image。开源版本参数规模 8B，采用全球首创的 Pixel-level Unified Transformer（UiT）架构——没有外部 VAE，没有分立文本编码器，raw pixels、text 和 task conditions 全部在单一共享 token 空间中编码和生成。模型权重与代码以 MIT 协议完整开放，支持商用和本地部署。在 GenEval 组合生成基准上，8B 版拿到 0.90，超过 GPT Image 2 的 0.89。

这是什么

HiDream-O1-Image 是智象未来的第二代开源图像生成基础模型。前代 HiDream-I1 有 17B 参数，这一代参数反而降到 8B，性能却全面超越前代——架构升级带来的能效跃迁。

模型提供两个变体：Full 版（50 步推理，追求最高质量）和 Dev 版（28 步蒸馏版，推理更快，几秒出图）。两者都已在 Hugging Face 和 GitHub 上开放下载，5 月 10 日同步上线了 Hugging Face Spaces 在线体验和技术报告。

MIT 协议意味着开发者可以商用、二次开发、直接打包进自己的 SaaS 产品，不需要额外授权费用。

架构为什么值得关注

大多数主流图像生成模型走的是"分立管线"路线：一个 VAE 把图像压缩到隐空间，一个文本编码器处理 prompt，扩散模型在隐空间里做去噪，最后 VAE 解码回像素。这套流程成熟，但中间转换环节意味着信息损耗和语义断层——模型在"翻译"，不是在"理解"。

HiDream-O1-Image 的 UiT 架构直接砍掉了 VAE 和分立文本编码器。Raw pixels、text tokens、task-specific conditions 全部进入同一个共享 token 空间，在一个骨干网络里端到端统一建模。这意味着模型不再需要"先把像素翻译成隐向量，再在隐空间做推理，最后翻译回来"——它直接在像素级别理解和生成。

这种思路和商汤 SenseNova U1 的 NEO-Unify 架构有相似之处（都砍掉中间编码器，走原生统一路线），但技术实现路径不同：SenseNova U1 用 MoE 混合专家做轻量化，HiDream-O1-Image 用纯 dense Transformer 配合 pixel-level 建模。

Benchmark 数据：8B 反超闭源

HiDream-O1-Image 8B 版本在五项主流基准上的成绩：

GenEval（组合生成）：0.90，超过 GPT Image 2 的 0.89，是开源模型最高分。具体看，双对象生成 0.99、颜色属性 0.89、位置准确率 0.93 都处于顶尖水平
DPG-Bench（密集提示对齐）：0.8983，领先 FLUX.2 Dev（24B+32B 参数量远大于 8B）
HPSv3（人类偏好）：10.37，优于 GPT Image 2 的 10.21
CVTG-2K（复杂视觉文本生成）：0.9128，同量级开源最强
LongText-Bench（长文本渲染）：中文 0.979 / 英文 0.978，同样压过 GPT Image 2

在 Artificial Analysis 的 Text-to-Image Arena 竞技场中，HiDream-O1-Image 位列全球第 8，是当前榜单上最靠前的开源权重模型。

需要指出的是，以上数据主要来自开发方自测，第三方独立验证覆盖度有限。8B 参数在多项基准上确实已经追平甚至超越 GPT Image 2 的表现，但这并不意味着它可以在所有场景下替代闭源模型——特别是长尾语言渲染、复杂多主体交互等场景，仍需更多社区实践验证。

双线策略：开源 8B + 闭源 Pro

HiDream-O1-Image 还有一个 Pro 版，参数规模超过 2000 亿，闭源不公开权重，在六项基准中拿下 SOTA。GenEval 0.92、DPG-Bench 0.9216、CVTG-2K 0.9561——每项都高于 8B 开源版。

这种"开源旗舰加闭源 Pro"的策略和 FLUX 系列高度相似（Pro 闭源、Dev/Schnell 开源），本质是用闭源能力撑商业化收入，用开源版本占据开发者心智和工作流入口。MIT 协议的选择进一步放大了开源版的可用性——商用无需付费授权，模型可以直接打包进产品对外销售。

对谁有用

独立开发者和小团队：8B 参数 + Dev 蒸馏版 = 几秒出图，单卡 CUDA GPU 即可本地部署。MIT 协议意味着没有授权费、没有使用限制，可以直接把模型嵌进自己的 SaaS 产品。

需要本地部署的团队：数据不出服务器，对隐私和合规敏感的场景（医疗、金融、品牌设计）多了一个选择。相比 GPT Image 2 只能通过 API 调用、数据必须过 OpenAI 服务器，HiDream-O1-Image 的本地可控性是明确差异。

从 HiDream-I1 升级的用户：前代 17B，这一代 8B 性能更强、部署更轻。升级路径清晰，推理成本更低。

当前限制

Benchmark 自测为主：第三方独立评测覆盖度有限，社区实际使用反馈尚未规模化
显存需求：2048×2048 端到端生成对显存有一定要求，消费级显卡可能需要量化或分块处理才能稳定运行
Prompt 改写偏差：配套的 Reasoning-Driven Prompt Agent 在推理前会自动将用户 prompt 转为英文，对希望保留中文原始语义细节的场景可能产生偏差
附加能力待验证：指令式图像编辑、主体驱动个性化、故事板生成等虽列入特性清单，但社区实际验证案例尚未规模化出现
Pro 与开源版的差距未知：200B+ 的 Pro 版闭源，外部用户无法直接对比两个版本的能力差距

---

*基于 Hugging Face 官方模型页面及多家媒体转述整理。*

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。