Ideogram4 开源了!世界最强开源图像模型来了,附 ComfyUI 工作流详解
Ideogram4 开源了!世界最强开源图像模型来了,附 ComfyUI 工作流详解
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
来源:[B站 T8star-Aix](https://www.bilibili.com/video/BV1UV7k6LE96) | 2026-06-05
字幕来源:本地 Whisper ASR 转写(转写稿 414 行)
---
导语
Ideogram AI 终于开源了。6月4日,这家一直以商业图像生成模型著称的公司,第一次将旗下最强模型 Ideogram4 开源放出,一上线便以 100 分登顶开源图像模型榜首,大幅领先第二名 100 分以上。本文基于 T8star-Aix 视频教程,梳理 Ideogram4 的核心创新、参数含义、ComfyUI 工作流使用方法,以及 Running Hub 集成情况,供想尝鲜的朋友参考。
---
Ideogram4 是什么
Ideogram4 是 Ideogram AI 商业模型系列的最新开源版本。相比国内以"人物真实感""东方审美"见长的模型(如 CogImage Turbo),Ideogram4 的核心优势在于设计感:生成的图像更像一幅画或宣传图,构图、色调、布局均有很强的视觉美感。官方称其为"世界第一开源图像模型",从评测数据看并非虚言——开源基准测试中,它领先第二名(某 80B 参数模型)约 100 分,在闭源模型中也名列前茅。
这是 Ideogram AI 首次开源,意义重大:以往 Ideogram 的模型权重不对外开放,如今完整开源了模型、代码和工作流,开发者可以直接本地部署或在 ComfyUI 中集成。
---
核心创新:为什么它不一样
用视觉模型替代 T5 文本编码器
大多数图像生成模型都使用 T5 或类似 CLIP 模型作为文本编码器。Ideogram4 的最大突破在于直接用"千问三 v2"(Qwen3-VL)替代了 T5——Qwen3-VL 原本是视频模型的文本编码器,这是首次被用于图像生成。
这一转变带来了几个关键优势:
- 更强的提示词理解:Qwen3-VL 是视觉-语言模型,能理解图像中"看"到的概念,结合文本后对提示词的遵循度大幅提升
- 区域精准控制:原生支持 JSON 格式的结构化提示词,可以精准指定图像中不同区域的内容、风格、光线等
这种做法在开源图像模型中属于全新范式,为后续社区优化提供了新的方向。
双模型架构:两次前向传播取差值
Ideogram4 采用"单流 DIT 架构"配合两个大模型(标准模型 + Unconditioning 模型)。工作流程如下:
- 第一次前向传播:有文本特征参与 + 图像噪声输入
- 第二次前向传播:无文本参与,仅图像噪声
- 两次传播结果取差值,作为额外引导信息注入去噪过程
这样做的好处是让模型在去噪时更好地"听"提示词的话,实现精细的区域控制和风格遵循。
MU 和 STD 参数
视频中 T8 详细解释了 Ideogram4 工作流中的两个关键参数:
MU(决定降噪重心):
- MU 值高 → 更多步数用于构建整体框架(粗糙阶段)
- MU 值低 → 更多步数用于细化纹理细节
- 经验:2K 以上大图或复杂构图建议提高 MU;简单人脸/单品图降低 MU
STD(噪声分布策略):
- STD 低 → 噪声集中在关键区域,去噪更精准,画面更细腻
- STD 高 → 噪声分布更均匀,适合低步数(12 步左右)快速生成
注意:视频录制时,官方 ComfyUI 节点对 CFG=1 的支持尚有问题,官方后续会修复;本地运行不受此影响。
---
ComfyUI 工作流:两种使用方法
前提条件
- 本地运行:需要 30GB+ 显存,推荐 32GB 以上
- Running Hub(海外宽审核版):已集成完整工作流,可直接使用 → https://www.runninghub.ai/us
- 模型下载:夸克网盘 https://pan.quark.cn/s/6b6507932242
- 开源项目:https://github.com/ideogram-oss/ideogram4
T8 录制前夜通宵更新了 Running Hub 节点,本地 ComfyUI 也同步更新了 Kjnodes 节点,下载模型后可直接加载。
工作流一:区域精准控制(面向设计师)
这是 Ideogram4 最强大的功能,通过 JSON 格式结构化描述实现精准的区域控制:
操作步骤:
- 在画布上创建多个区域框,每个框内可设置:
- Object(物体):该区域生成什么,如"一只猫"
- Text(文字):该区域嵌入的文字,生成时自动加引号
- 风格(Style):艺术风格
- 光线(Lighting):如黄昏、自然光
- 介质(Medium):油画、素描等
- 顶部全局提示词(权重最高)描述整体场景
- 运行后,区域内容受全局提示词约束,同时各区域独立遵循自身描述
重要提示:区域提示词必须与全局提示词保持一致或互不冲突;若上下矛盾,以全局提示词为准。
支持比例:2048 以内、16 倍数任意比例(如 1920×300 的超长条图、1:6 竖图等),比 GPT-4o 更极端。
工作流二:提示词模板(面向普通用户)
区域控制虽然精准,但操作繁琐。T8 提供了更简单的模板方案:
- 使用系统提示词模板
- 将模板发送给任意语言模型(如 Qwen3-VL)让 AI 优化提示词
- 用户只需输入简单中文描述,AI 自动补全结构化提示词
- 生成时无需手动设置区域,直接点击运行
此方式适合"心里没谱"、不想折腾的用户,把创作交给 AI 发挥,效果同样出色。
---
NSFW 限制情况
Ideogram4 对 NSFW 内容有较严格的限制:
- 前训练和后训练阶段均强化了 NSFW 过滤
- 非 JSON 格式的敏感提示词更容易触发违规
- 即使提示词无敏感词,若生成内容有问题也可能在出图后被拦截
- 整体限制严格程度类似字节旗下模型,需要前后加大量限制词
不过社区层面有一定解锁空间,具体方法不在本文讨论范围内。
---
总结:Ideogram4 适合谁
| 场景 | 推荐度 | 说明 |
|------|--------|------|
| 需要强设计感的海报/Banner | ⭐⭐⭐⭐⭐ | 视觉美感是目前开源最强 |
| 需要精准区域控制的品牌设计 | ⭐⭐⭐⭐⭐ | JSON 结构化控制非常精准 |
| 生成东方人物、写实人脸 | ⭐⭐⭐ | 不如 CogImage Turbo 等国内模型 |
| 本地低显存运行 | ⭐⭐ | 需要 30GB+ 显存,门槛较高 |
| 快速生成简单图像 | ⭐⭐⭐ | 配合 Running Hub 可用,但设置稍繁 |
---
相关链接
- 视频:[B站 T8star-Aix - Ideogram4 开源](https://www.bilibili.com/video/BV1UV7k6LE96)
- 模型下载:[夸克网盘](https://pan.quark.cn/s/6b6507932242)
- 开源项目:[GitHub ideogram-oss/ideogram4](https://github.com/ideogram-oss/ideogram4)
- Running Hub 海外版:https://www.runninghub.ai/us
- 商用工作流文档:https://my.feishu.cn/wiki/EcErwNCz4iFi47kqiKqcfgYpn3d
---
*本文内容基于 B站 T8star-Aix 视频教程转写整理,字幕由本地 Whisper ASR 转写,部分术语以音频识别为准。*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。