8B 参数反超 GPT Image 2:智象未来开源 HiDream-O1-Image,砍掉 VAE 做原生统一生图

分类: 生图平面类 |发布于: 5/10/2026 |最后更新: 5/10/2026
8B 参数反超 GPT Image 2:智象未来开源 HiDream-O1-Image,砍掉 VAE 做原生统一生图

8B 参数反超 GPT Image 2:智象未来开源 HiDream-O1-Image,砍掉 VAE 做原生统一生图

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

5 月 8 日,智象未来(HiDream.ai)开源发布新一代图像生成基础模型 HiDream-O1-Image。开源版本参数规模 8B,采用全球首创的 Pixel-level Unified Transformer(UiT)架构——没有外部 VAE,没有分立文本编码器,raw pixels、text 和 task conditions 全部在单一共享 token 空间中编码和生成。模型权重与代码以 MIT 协议完整开放,支持商用和本地部署。在 GenEval 组合生成基准上,8B 版拿到 0.90,超过 GPT Image 2 的 0.89。

这是什么

HiDream-O1-Image 是智象未来的第二代开源图像生成基础模型。前代 HiDream-I1 有 17B 参数,这一代参数反而降到 8B,性能却全面超越前代——架构升级带来的能效跃迁。

模型提供两个变体:Full 版(50 步推理,追求最高质量)和 Dev 版(28 步蒸馏版,推理更快,几秒出图)。两者都已在 Hugging Face 和 GitHub 上开放下载,5 月 10 日同步上线了 Hugging Face Spaces 在线体验和技术报告。

MIT 协议意味着开发者可以商用、二次开发、直接打包进自己的 SaaS 产品,不需要额外授权费用。

架构为什么值得关注

大多数主流图像生成模型走的是"分立管线"路线:一个 VAE 把图像压缩到隐空间,一个文本编码器处理 prompt,扩散模型在隐空间里做去噪,最后 VAE 解码回像素。这套流程成熟,但中间转换环节意味着信息损耗和语义断层——模型在"翻译",不是在"理解"。

HiDream-O1-Image 的 UiT 架构直接砍掉了 VAE 和分立文本编码器。Raw pixels、text tokens、task-specific conditions 全部进入同一个共享 token 空间,在一个骨干网络里端到端统一建模。这意味着模型不再需要"先把像素翻译成隐向量,再在隐空间做推理,最后翻译回来"——它直接在像素级别理解和生成。

这种思路和商汤 SenseNova U1 的 NEO-Unify 架构有相似之处(都砍掉中间编码器,走原生统一路线),但技术实现路径不同:SenseNova U1 用 MoE 混合专家做轻量化,HiDream-O1-Image 用纯 dense Transformer 配合 pixel-level 建模。

Benchmark 数据:8B 反超闭源

HiDream-O1-Image 8B 版本在五项主流基准上的成绩:

  • GenEval(组合生成):0.90,超过 GPT Image 2 的 0.89,是开源模型最高分。具体看,双对象生成 0.99、颜色属性 0.89、位置准确率 0.93 都处于顶尖水平
  • DPG-Bench(密集提示对齐):0.8983,领先 FLUX.2 Dev(24B+32B 参数量远大于 8B)
  • HPSv3(人类偏好):10.37,优于 GPT Image 2 的 10.21
  • CVTG-2K(复杂视觉文本生成):0.9128,同量级开源最强
  • LongText-Bench(长文本渲染):中文 0.979 / 英文 0.978,同样压过 GPT Image 2

在 Artificial Analysis 的 Text-to-Image Arena 竞技场中,HiDream-O1-Image 位列全球第 8,是当前榜单上最靠前的开源权重模型。

需要指出的是,以上数据主要来自开发方自测,第三方独立验证覆盖度有限。8B 参数在多项基准上确实已经追平甚至超越 GPT Image 2 的表现,但这并不意味着它可以在所有场景下替代闭源模型——特别是长尾语言渲染、复杂多主体交互等场景,仍需更多社区实践验证。

双线策略:开源 8B + 闭源 Pro

HiDream-O1-Image 还有一个 Pro 版,参数规模超过 2000 亿,闭源不公开权重,在六项基准中拿下 SOTA。GenEval 0.92、DPG-Bench 0.9216、CVTG-2K 0.9561——每项都高于 8B 开源版。

这种"开源旗舰加闭源 Pro"的策略和 FLUX 系列高度相似(Pro 闭源、Dev/Schnell 开源),本质是用闭源能力撑商业化收入,用开源版本占据开发者心智和工作流入口。MIT 协议的选择进一步放大了开源版的可用性——商用无需付费授权,模型可以直接打包进产品对外销售。

对谁有用

独立开发者和小团队:8B 参数 + Dev 蒸馏版 = 几秒出图,单卡 CUDA GPU 即可本地部署。MIT 协议意味着没有授权费、没有使用限制,可以直接把模型嵌进自己的 SaaS 产品。

需要本地部署的团队:数据不出服务器,对隐私和合规敏感的场景(医疗、金融、品牌设计)多了一个选择。相比 GPT Image 2 只能通过 API 调用、数据必须过 OpenAI 服务器,HiDream-O1-Image 的本地可控性是明确差异。

从 HiDream-I1 升级的用户:前代 17B,这一代 8B 性能更强、部署更轻。升级路径清晰,推理成本更低。

当前限制

  • Benchmark 自测为主:第三方独立评测覆盖度有限,社区实际使用反馈尚未规模化
  • 显存需求:2048×2048 端到端生成对显存有一定要求,消费级显卡可能需要量化或分块处理才能稳定运行
  • Prompt 改写偏差:配套的 Reasoning-Driven Prompt Agent 在推理前会自动将用户 prompt 转为英文,对希望保留中文原始语义细节的场景可能产生偏差
  • 附加能力待验证:指令式图像编辑、主体驱动个性化、故事板生成等虽列入特性清单,但社区实际验证案例尚未规模化出现
  • Pro 与开源版的差距未知:200B+ 的 Pro 版闭源,外部用户无法直接对比两个版本的能力差距

---

*基于 Hugging Face 官方模型页面及多家媒体转述整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。