微软 MAI-Image-2 进军图像生成前三:技术很强,但限制也很硬
微软 MAI-Image-2 进军图像生成前三:技术很强,但限制也很硬
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
如果你最近在关注 AI 图像生成赛道,微软的新动作值得看一眼。
微软 AI Superintelligence 团队发布的 MAI-Image-2 已经进入 Arena.ai 图像生成排行榜前三,仅次于 Google 和 OpenAI。2026年4月2日,模型正式登陆 Microsoft Foundry 平台——这意味着微软首次拥有能与 OpenAI 抗衡的内部图像生成能力。
发生了什么
MAI-Image-2 的首发时间是 3月19日,当时微软官方博客宣布模型已在 MAI Playground 上线,并正逐步推向 Copilot 和 Bing Image Creator。
4月2日,微软又做了一次"加法":MAI-Image-2 正式登陆 Microsoft Foundry 平台,同步发布的还有语音识别模型 MAI-Transcribe-1 和语音生成模型 MAI-Voice-1。官方强调了一个关键点:这些模型"比竞争对手更快、更便宜"。
这不是简单的平台迁移。微软之前一直依赖 OpenAI 的 DALL-E 系列来支撑 Bing Image Creator 和 Copilot 的图像生成功能。现在,它终于有了自己的顶级模型——而且排名已经追到第三。
核心能力:不只是"画得好看"
微软在开发 MAI-Image-2 时,专门找了摄影师、设计师和视觉创作者做访谈。三件事浮出水面:写实主义、图像内文字、复杂场景。
1. 增强写实主义
这是官方重点宣传的能力。MAI-Image-2 的强项在于:
- 自然光线:光影关系理解到位,不会出现"光源乱飞"的情况
- 准确皮肤色调:微软特别强调改进了有色人种的皮肤渲染——这是很多模型的老问题
- 细节环境:环境不会糊成一片,而是有层次感
实测中,Decrypt 的评测认为 MAI-Image-2 在写实主义上"击败了 GPT-Image",即使 GPT-Image 在排行榜上排名更高。
2. 图像内文字生成
这是另一个亮点。很多 AI 图像模型最大的痛点是:图里写字全是乱码。
MAI-Image-2 解决了这个问题:
- 海报标题、品牌标志、信息图表、幻灯片
- 支持多语言(包括中文),但准确度有限
- 大段文字排版仍需人工调整,但短句基本可用
对于做营销物料、社媒内容的人来说,这是刚需。
3. 复杂场景构建
模型对空间关系理解较强。测试中,"狗狗在海中间骑自行车"这类违背逻辑的场景,MAI-Image-2 的处理比很多同类模型更合理——肢体比例、空间位置、景深关系都更准。
实测表现:排行榜第3,但实际可能更强
Arena.ai 的排行榜是基于用户盲测投票的。MAI-Image-2 目前排名第3,仅次于 Google Gemini 3.1 Flash 和 OpenAI GPT-Image 1.5。
有意思的是,Decrypt 的评测发现:MAI-Image-2 的实际表现比排行榜显示的更好。在写实主义和文字渲染上,它击败了排名更高的 GPT-Image。
这说明一件事:排行榜反映的是"大众偏好",不一定是"特定任务表现"。如果你做的是写实风、需要图内文字,MAI-Image-2 可能比排名更高的模型更合适。
产品限制:技术很强,但绑得很紧
好的部分说完了,现在说限制。MAI-Image-2 的问题不在技术,而在产品决策。
1. 仅支持 1:1 方形输出
2026年,一个图像生成模型只支持正方形,这很奇怪。
- 无法生成横版(16:9)、竖版(9:16)
- 社交媒体内容适配困难:YouTube 封面、Instagram Story、微博海报都需要裁切
- 横幅、网站头图更是无法直接使用
这是一个硬伤,尤其是对于需要批量产出的创作者。
2. 每日15张生成限额
MAI Playground 的免费额度:
- 每生成一张图,等待30秒冷却
- 每天最多15张图,之后锁24小时
对于随便玩玩的人,这够用了。但对于任何生产级工作流,15张/天根本不够用。一条社媒帖子可能就需要尝试20-30个版本才能定稿。
3. 激进的内容过滤
MAI-Image-2 的内容审核比 Google Imagen 和 OpenAI 都要严格。Decrypt 测试了一个"卡通蜘蛛追逐女人"的场景,直接被拒。
对于做恐怖插画、概念设计、情绪张力强的视觉内容的创作者,这种过滤会带来很大麻烦——你无法控制模型对"紧张感"的敏感度。
4. 缺少编辑功能
这是一个纯文本生图工具:
- 没有 inpainting(局部重绘)
- 没有 outpainting(扩展画布)
- 没有图生图(参考图修改)
- 没有多参考图组合
相比之下,Midjourney、Adobe Firefly 都已经支持完整的编辑流程。MAI-Image-2 在这方面明显落后。
战略意义:微软的"去 OpenAI 化"再进一步
从商业角度看,MAI-Image-2 的意义远超产品本身。
一年前,微软的图像生成几乎完全依赖 OpenAI:Bing Image Creator 用的是 DALL-E 3,Copilot 的图像能力也是外包的。微软为此支付了数十亿美元。
现在,微软有了自己的顶级模型。MAI-Image-2 排名第三,已经"够好"——不需要超越 Google,只需要能替代 OpenAI 就行。这给了微软谈判筹码,也给了它成本控制的空间。
值得注意的是,这出自 Mustafa Suleyman 领导的 MAI Superintelligence 团队。Suleyman 在 2025年11月组建这支团队,2026年3月就交付了第一个重要成果。微软的 GB200 计算集群(基于 NVIDIA Blackwell 架构)已经启用,后续迭代会更密集。
可用性与定价
MAI Playground: 免费体验(受限额)
- 地址:https://playground.microsoft.ai/chat
- 每日15张,仅限方形输出
Microsoft Foundry API:
- 文本输入:$5 / 100万 tokens
- 图像输出:$33 / 100万 tokens
- 目前仅限企业客户申请
Copilot / Bing Image Creator: 正在逐步推送,尚未完全覆盖
如果你需要大批量生成,目前 API 渠道仍受限;如果只是试试效果,MAI Playground 可以体验。
总结
MAI-Image-2 的技术水平已经进入第一梯队:写实主义、文字渲染、空间理解都很强。微软用三个月时间,从"依赖 OpenAI"变成"拥有自主顶级模型"。
但产品层面的限制也很硬:方形输出、日限额、严格过滤、无编辑功能。这些限制让一个强技术模型在实用场景中"绑手绑脚"。
微软的信号很明确:它想要一个"足够安全"的模型,而不是一个"足够好用"的工具。后续能否放开,决定了 MAI-Image-2 是"技术里程碑"还是"生产级武器"。
---
参考来源:
- Microsoft AI 官方博客: https://microsoft.ai/news/introducing-mai-image-2/
- Microsoft Foundry 发布: https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/
- Decrypt 评测: https://decrypt.co/361791/microsoft-mai-image-2-text-image-model-review
- WinBuzzer 分析: https://winbuzzer.com/2026/03/20/microsoft-mai-image-2-top-three-ai-image-generation-restrictions-xcxwbn/
参考来源
- https://microsoft.ai/news/introducing-mai-image-2/
- https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/
- https://decrypt.co/361791/microsoft-mai-image-2-text-image-model-review
- https://winbuzzer.com/2026/03/20/microsoft-mai-image-2-top-three-ai-image-generation-restrictions-xcxwbn/
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。