Ideogram4 开源了！世界最强开源图像模型来了，附 ComfyUI 工作流详解

分类: 生图3D类 |发布于: 6/6/2026 |最后更新: 6/6/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

来源：[B站 T8star-Aix](https://www.bilibili.com/video/BV1UV7k6LE96) | 2026-06-05

字幕来源：本地 Whisper ASR 转写（转写稿 414 行）

---

导语

Ideogram AI 终于开源了。6月4日，这家一直以商业图像生成模型著称的公司，第一次将旗下最强模型 Ideogram4 开源放出，一上线便以 100 分登顶开源图像模型榜首，大幅领先第二名 100 分以上。本文基于 T8star-Aix 视频教程，梳理 Ideogram4 的核心创新、参数含义、ComfyUI 工作流使用方法，以及 Running Hub 集成情况，供想尝鲜的朋友参考。

---

Ideogram4 是什么

Ideogram4 是 Ideogram AI 商业模型系列的最新开源版本。相比国内以"人物真实感""东方审美"见长的模型（如 CogImage Turbo），Ideogram4 的核心优势在于设计感：生成的图像更像一幅画或宣传图，构图、色调、布局均有很强的视觉美感。官方称其为"世界第一开源图像模型"，从评测数据看并非虚言——开源基准测试中，它领先第二名（某 80B 参数模型）约 100 分，在闭源模型中也名列前茅。

这是 Ideogram AI 首次开源，意义重大：以往 Ideogram 的模型权重不对外开放，如今完整开源了模型、代码和工作流，开发者可以直接本地部署或在 ComfyUI 中集成。

---

核心创新：为什么它不一样

用视觉模型替代 T5 文本编码器

大多数图像生成模型都使用 T5 或类似 CLIP 模型作为文本编码器。Ideogram4 的最大突破在于直接用"千问三 v2"（Qwen3-VL）替代了 T5——Qwen3-VL 原本是视频模型的文本编码器，这是首次被用于图像生成。

这一转变带来了几个关键优势：

更强的提示词理解：Qwen3-VL 是视觉-语言模型，能理解图像中"看"到的概念，结合文本后对提示词的遵循度大幅提升
区域精准控制：原生支持 JSON 格式的结构化提示词，可以精准指定图像中不同区域的内容、风格、光线等

这种做法在开源图像模型中属于全新范式，为后续社区优化提供了新的方向。

双模型架构：两次前向传播取差值

Ideogram4 采用"单流 DIT 架构"配合两个大模型（标准模型 + Unconditioning 模型）。工作流程如下：

第一次前向传播：有文本特征参与 + 图像噪声输入
第二次前向传播：无文本参与，仅图像噪声
两次传播结果取差值，作为额外引导信息注入去噪过程

这样做的好处是让模型在去噪时更好地"听"提示词的话，实现精细的区域控制和风格遵循。

MU 和 STD 参数

视频中 T8 详细解释了 Ideogram4 工作流中的两个关键参数：

MU（决定降噪重心）：

MU 值高 → 更多步数用于构建整体框架（粗糙阶段）
MU 值低 → 更多步数用于细化纹理细节
经验：2K 以上大图或复杂构图建议提高 MU；简单人脸/单品图降低 MU

STD（噪声分布策略）：

STD 低 → 噪声集中在关键区域，去噪更精准，画面更细腻
STD 高 → 噪声分布更均匀，适合低步数（12 步左右）快速生成

注意：视频录制时，官方 ComfyUI 节点对 CFG=1 的支持尚有问题，官方后续会修复；本地运行不受此影响。

---

ComfyUI 工作流：两种使用方法

前提条件

本地运行：需要 30GB+ 显存，推荐 32GB 以上
Running Hub（海外宽审核版）：已集成完整工作流，可直接使用 → https://www.runninghub.ai/us
模型下载：夸克网盘 https://pan.quark.cn/s/6b6507932242
开源项目：https://github.com/ideogram-oss/ideogram4

T8 录制前夜通宵更新了 Running Hub 节点，本地 ComfyUI 也同步更新了 Kjnodes 节点，下载模型后可直接加载。

工作流一：区域精准控制（面向设计师）

这是 Ideogram4 最强大的功能，通过 JSON 格式结构化描述实现精准的区域控制：

操作步骤：

在画布上创建多个区域框，每个框内可设置：

- Object（物体）：该区域生成什么，如"一只猫"

- Text（文字）：该区域嵌入的文字，生成时自动加引号

- 风格（Style）：艺术风格

- 光线（Lighting）：如黄昏、自然光

- 介质（Medium）：油画、素描等

顶部全局提示词（权重最高）描述整体场景
运行后，区域内容受全局提示词约束，同时各区域独立遵循自身描述

重要提示：区域提示词必须与全局提示词保持一致或互不冲突；若上下矛盾，以全局提示词为准。

支持比例：2048 以内、16 倍数任意比例（如 1920×300 的超长条图、1:6 竖图等），比 GPT-4o 更极端。

工作流二：提示词模板（面向普通用户）

区域控制虽然精准，但操作繁琐。T8 提供了更简单的模板方案：

使用系统提示词模板
将模板发送给任意语言模型（如 Qwen3-VL）让 AI 优化提示词
用户只需输入简单中文描述，AI 自动补全结构化提示词
生成时无需手动设置区域，直接点击运行

此方式适合"心里没谱"、不想折腾的用户，把创作交给 AI 发挥，效果同样出色。

---

NSFW 限制情况

Ideogram4 对 NSFW 内容有较严格的限制：

前训练和后训练阶段均强化了 NSFW 过滤
非 JSON 格式的敏感提示词更容易触发违规
即使提示词无敏感词，若生成内容有问题也可能在出图后被拦截
整体限制严格程度类似字节旗下模型，需要前后加大量限制词

不过社区层面有一定解锁空间，具体方法不在本文讨论范围内。

---

总结：Ideogram4 适合谁

| 场景 | 推荐度 | 说明 |

|------|--------|------|

| 需要强设计感的海报/Banner | ⭐⭐⭐⭐⭐ | 视觉美感是目前开源最强 |

| 需要精准区域控制的品牌设计 | ⭐⭐⭐⭐⭐ | JSON 结构化控制非常精准 |

| 生成东方人物、写实人脸 | ⭐⭐⭐ | 不如 CogImage Turbo 等国内模型 |

| 本地低显存运行 | ⭐⭐ | 需要 30GB+ 显存，门槛较高 |

| 快速生成简单图像 | ⭐⭐⭐ | 配合 Running Hub 可用，但设置稍繁 |

---

参考来源

https://www.bilibili.com/video/BV1UV7k6LE96

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。

Ideogram4 开源了！世界最强开源图像模型来了，附 ComfyUI 工作流详解

Ideogram4 开源了！世界最强开源图像模型来了，附 ComfyUI 工作流详解

导语

Ideogram4 是什么

核心创新：为什么它不一样

用视觉模型替代 T5 文本编码器

双模型架构：两次前向传播取差值

MU 和 STD 参数

ComfyUI 工作流：两种使用方法

前提条件

工作流一：区域精准控制（面向设计师）

工作流二：提示词模板（面向普通用户）

NSFW 限制情况

总结：Ideogram4 适合谁

相关链接

参考来源