Google Gemini Omni Flash 上线：视频生成进入「对话编辑」时代

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

6月30日，Google 正式将 Gemini Omni Flash 推向 API。这是 Google 新 "Omni" 家族的首个模型，5月在 I/O 2026 首次亮相时还只是消费者端的玩具，现在开发者和企业可以通过 API 调用了。但这次上线真正值得关注的不是"又多了一个文生视频模型"，而是一个新交互方式：对话式视频编辑。

从"一次成型"到"像改文档一样改视频"

过去用 AI 生成视频，流程基本是：写提示词 → 生成 → 不满意 → 改提示词 → 重新生成。每次修改都是从零开始，之前满意的画面也一起丢掉。这就像写文档不能编辑，只能删了重写。

Omni Flash 改变了这个逻辑。它通过 Google 新推出的 interactions API 实现了状态保持——每一轮编辑都基于上一轮的结果，你可以对已生成的视频说"把背景换成雨天"、"给人物换件红色外套"、"把画面右边的招牌文字改成英文"，模型只改你要求的部分，保留其余画面。这种"对话式编辑"让视频生成从一次性渲染变成了可迭代的工作流。

实际操作中，开发者可以生成一段视频，然后链式修改：把猫换成小美洲狮，再把风格改成8-bit复古，再改成水彩画风格，每个版本都可以保存分支、后续继续编辑。

不只是文字提示：品牌资产可以直接"喂"进去

Omni Flash 接受的输入远不止文字。你可以同时喂给它最多7张参考图片和3段3秒以内的视频片段，模型会把这些视觉信息融入生成结果。

这意味着什么？给一张产品照片，让模型把产品放进一个厨房场景里，它会保留产品的真实颜色和大致形状，而不是凭空编一个"类似的东西"。对于品牌营销来说，Logo、产品图、特定场景照片可以直接作为素材输入，而不是靠文字描述去"碰运气"。

模型还内置了世界模型——对物理场景的理解。比如你要求给画面加上小雨，它不只是叠加雨滴特效，还会在湿漉漉的路面上渲染出人物和物体的倒影。这种物理一致性是区分"看起来像AI"和"接近真实画面"的关键。

文字和Logo插入也是亮点。你可以让模型把画面中的招牌文字替换成另一种语言，或者插入品牌Logo。不过 VentureBeat 的测试反馈是：复杂场景中招牌追踪不够稳定，有些帧的文字会"滑回"原语言。这个功能有用，但还没到完全放心的程度。

定价：便宜，但有分辨率天花板

Omni Flash 的定价很激进：每秒720p视频$0.10，一段10秒的视频大约$1。跟 Google 自家的 Veo 系列对比：

| | 720p | 1080p | 4K |

|---|---|---|---|

| Omni Flash | $0.10/秒 | ❌ | ❌ |

| Veo 3.1 Lite | $0.05/秒 | $0.08/秒 | ❌ |

| Veo 3.1 Fast | $0.10/秒 | $0.12/秒 | $0.30/秒 |

| Veo 3.1 | $0.40/秒 | $0.40/秒 | $0.60/秒 |

价格跟 Veo 3.1 Fast 的720p持平，但 Omni Flash 只有720p，没有1080p和4K选项。片段长度3-10秒，支持横屏（16:9）和竖屏（9:16）。输出标准MP4，每段都带 SynthID 水印和 C2PA 内容凭证。

对于内部培训视频、社交媒体内容，720p够用。但品牌广告、大屏展示，这个分辨率就是硬伤——Veo 3.1 仍然有存在的理由。

需要注意的是，每次对话式编辑都是一次新的生成调用，都要付费。虽然不用从头来减少了"浪费的生成"，但迭代多了费用也会累积。

安全红线：能做什么和不能做什么

Google 在安全方面画了几条明确的线：

每段视频都带 SynthID 水印，肉眼不可见但可机器检测
C2PA 内容凭证覆盖所有生成内容
AI Content Detection API 可检测 Google 和其他厂商的 AI 生成内容
明确禁止照片+音频的 lip-sync：不能给一张人脸照片配上音频让它"说话"，这是防 deepfake 的核心限制
允许语言翻译：可以录一段人说话的视频，翻译成另一种语言，这对全球化培训内容很有用

对合规要求高的企业来说，这些内置的安全机制是加分项，而不是限制。

竞争格局

在 LMArena 的 Text-to-Video 排行榜上，Omni Flash 目前排名第一（1527分），这是用户盲评的结果，有一定参考价值。

但视频生成赛道的竞争远没到终局。Google 内部 Veo 3.1 仍是高分辨率场景的主力；外部字节跳动、阿里、OpenAI 都在抢同一块市场。Omni Flash 的差异化在于"对话式编辑"本身——把视频当成可迭代的活文档，而不是一次性渲染的成品。

谁该关注

营销和培训团队：需要快速出视频、频繁修改的场景，对话式编辑能显著减少返工
全球化企业：视频语言翻译功能直接可用
品牌方：参考图输入让品牌资产可控地出现在生成画面中
暂时不适合：需要1080p以上分辨率、需要长视频（超过10秒）、需要精确文字渲染的场景

Omni Flash 不是视频生成的终极形态，但它把交互方式往前推了一步：从"写提示词碰运气"到"像编辑文档一样编辑视频"。这个方向本身，可能比模型参数的提升更值得关注。

---

基于 VentureBeat 等多家媒体转述整理。参考来源：

https://venturebeat.com/technology/googles-gemini-omni-flash-hits-the-api-turning-enterprise-video-production-into-a-conversation
https://deepmind.google/models/model-cards/gemini-omni-flash/

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。