Ideogram4 开源了!世界最强开源图像模型来了,附 ComfyUI 工作流详解

分类: 生图3D类 |发布于: 6/6/2026 |最后更新: 6/6/2026
Ideogram4 开源了!世界最强开源图像模型来了,附 ComfyUI 工作流详解

Ideogram4 开源了!世界最强开源图像模型来了,附 ComfyUI 工作流详解

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

来源:[B站 T8star-Aix](https://www.bilibili.com/video/BV1UV7k6LE96) | 2026-06-05

字幕来源:本地 Whisper ASR 转写(转写稿 414 行)

---

导语

Ideogram AI 终于开源了。6月4日,这家一直以商业图像生成模型著称的公司,第一次将旗下最强模型 Ideogram4 开源放出,一上线便以 100 分登顶开源图像模型榜首,大幅领先第二名 100 分以上。本文基于 T8star-Aix 视频教程,梳理 Ideogram4 的核心创新、参数含义、ComfyUI 工作流使用方法,以及 Running Hub 集成情况,供想尝鲜的朋友参考。

---

Ideogram4 是什么

Ideogram4 是 Ideogram AI 商业模型系列的最新开源版本。相比国内以"人物真实感""东方审美"见长的模型(如 CogImage Turbo),Ideogram4 的核心优势在于设计感:生成的图像更像一幅画或宣传图,构图、色调、布局均有很强的视觉美感。官方称其为"世界第一开源图像模型",从评测数据看并非虚言——开源基准测试中,它领先第二名(某 80B 参数模型)约 100 分,在闭源模型中也名列前茅。

这是 Ideogram AI 首次开源,意义重大:以往 Ideogram 的模型权重不对外开放,如今完整开源了模型、代码和工作流,开发者可以直接本地部署或在 ComfyUI 中集成。

---

核心创新:为什么它不一样

用视觉模型替代 T5 文本编码器

大多数图像生成模型都使用 T5 或类似 CLIP 模型作为文本编码器。Ideogram4 的最大突破在于直接用"千问三 v2"(Qwen3-VL)替代了 T5——Qwen3-VL 原本是视频模型的文本编码器,这是首次被用于图像生成。

这一转变带来了几个关键优势:

  • 更强的提示词理解:Qwen3-VL 是视觉-语言模型,能理解图像中"看"到的概念,结合文本后对提示词的遵循度大幅提升
  • 区域精准控制:原生支持 JSON 格式的结构化提示词,可以精准指定图像中不同区域的内容、风格、光线等

这种做法在开源图像模型中属于全新范式,为后续社区优化提供了新的方向。

双模型架构:两次前向传播取差值

Ideogram4 采用"单流 DIT 架构"配合两个大模型(标准模型 + Unconditioning 模型)。工作流程如下:

  1. 第一次前向传播:有文本特征参与 + 图像噪声输入
  2. 第二次前向传播:无文本参与,仅图像噪声
  3. 两次传播结果取差值,作为额外引导信息注入去噪过程

这样做的好处是让模型在去噪时更好地"听"提示词的话,实现精细的区域控制和风格遵循。

MU 和 STD 参数

视频中 T8 详细解释了 Ideogram4 工作流中的两个关键参数:

MU(决定降噪重心)

  • MU 值高 → 更多步数用于构建整体框架(粗糙阶段)
  • MU 值低 → 更多步数用于细化纹理细节
  • 经验:2K 以上大图或复杂构图建议提高 MU;简单人脸/单品图降低 MU

STD(噪声分布策略)

  • STD 低 → 噪声集中在关键区域,去噪更精准,画面更细腻
  • STD 高 → 噪声分布更均匀,适合低步数(12 步左右)快速生成

注意:视频录制时,官方 ComfyUI 节点对 CFG=1 的支持尚有问题,官方后续会修复;本地运行不受此影响。

---

ComfyUI 工作流:两种使用方法

前提条件

  • 本地运行:需要 30GB+ 显存,推荐 32GB 以上
  • Running Hub(海外宽审核版):已集成完整工作流,可直接使用 → https://www.runninghub.ai/us
  • 模型下载:夸克网盘 https://pan.quark.cn/s/6b6507932242
  • 开源项目:https://github.com/ideogram-oss/ideogram4

T8 录制前夜通宵更新了 Running Hub 节点,本地 ComfyUI 也同步更新了 Kjnodes 节点,下载模型后可直接加载。

工作流一:区域精准控制(面向设计师)

这是 Ideogram4 最强大的功能,通过 JSON 格式结构化描述实现精准的区域控制:

操作步骤

  1. 在画布上创建多个区域框,每个框内可设置:

- Object(物体):该区域生成什么,如"一只猫"

- Text(文字):该区域嵌入的文字,生成时自动加引号

- 风格(Style):艺术风格

- 光线(Lighting):如黄昏、自然光

- 介质(Medium):油画、素描等

  1. 顶部全局提示词(权重最高)描述整体场景
  2. 运行后,区域内容受全局提示词约束,同时各区域独立遵循自身描述

重要提示:区域提示词必须与全局提示词保持一致或互不冲突;若上下矛盾,以全局提示词为准。

支持比例:2048 以内、16 倍数任意比例(如 1920×300 的超长条图、1:6 竖图等),比 GPT-4o 更极端。

工作流二:提示词模板(面向普通用户)

区域控制虽然精准,但操作繁琐。T8 提供了更简单的模板方案:

  1. 使用系统提示词模板
  2. 将模板发送给任意语言模型(如 Qwen3-VL)让 AI 优化提示词
  3. 用户只需输入简单中文描述,AI 自动补全结构化提示词
  4. 生成时无需手动设置区域,直接点击运行

此方式适合"心里没谱"、不想折腾的用户,把创作交给 AI 发挥,效果同样出色。

---

NSFW 限制情况

Ideogram4 对 NSFW 内容有较严格的限制:

  • 前训练和后训练阶段均强化了 NSFW 过滤
  • 非 JSON 格式的敏感提示词更容易触发违规
  • 即使提示词无敏感词,若生成内容有问题也可能在出图后被拦截
  • 整体限制严格程度类似字节旗下模型,需要前后加大量限制词

不过社区层面有一定解锁空间,具体方法不在本文讨论范围内。

---

总结:Ideogram4 适合谁

| 场景 | 推荐度 | 说明 |

|------|--------|------|

| 需要强设计感的海报/Banner | ⭐⭐⭐⭐⭐ | 视觉美感是目前开源最强 |

| 需要精准区域控制的品牌设计 | ⭐⭐⭐⭐⭐ | JSON 结构化控制非常精准 |

| 生成东方人物、写实人脸 | ⭐⭐⭐ | 不如 CogImage Turbo 等国内模型 |

| 本地低显存运行 | ⭐⭐ | 需要 30GB+ 显存,门槛较高 |

| 快速生成简单图像 | ⭐⭐⭐ | 配合 Running Hub 可用,但设置稍繁 |

---

相关链接

  • 视频:[B站 T8star-Aix - Ideogram4 开源](https://www.bilibili.com/video/BV1UV7k6LE96)
  • 模型下载:[夸克网盘](https://pan.quark.cn/s/6b6507932242)
  • 开源项目:[GitHub ideogram-oss/ideogram4](https://github.com/ideogram-oss/ideogram4)
  • Running Hub 海外版:https://www.runninghub.ai/us
  • 商用工作流文档:https://my.feishu.cn/wiki/EcErwNCz4iFi47kqiKqcfgYpn3d

---

*本文内容基于 B站 T8star-Aix 视频教程转写整理,字幕由本地 Whisper ASR 转写,部分术语以音频识别为准。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。