视频模型

Google Gemini Omni Flash 上线:视频生成进入「对话编辑」时代

2026年7月1日1 次阅读
Google Gemini Omni Flash 上线:视频生成进入「对话编辑」时代

Google Gemini Omni Flash 上线:视频生成进入「对话编辑」时代

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

6月30日,Google 正式将 Gemini Omni Flash 推向 API。这是 Google 新 "Omni" 家族的首个模型,5月在 I/O 2026 首次亮相时还只是消费者端的玩具,现在开发者和企业可以通过 API 调用了。但这次上线真正值得关注的不是"又多了一个文生视频模型",而是一个新交互方式:对话式视频编辑

从"一次成型"到"像改文档一样改视频"

过去用 AI 生成视频,流程基本是:写提示词 → 生成 → 不满意 → 改提示词 → 重新生成。每次修改都是从零开始,之前满意的画面也一起丢掉。这就像写文档不能编辑,只能删了重写。

Omni Flash 改变了这个逻辑。它通过 Google 新推出的 interactions API 实现了状态保持——每一轮编辑都基于上一轮的结果,你可以对已生成的视频说"把背景换成雨天"、"给人物换件红色外套"、"把画面右边的招牌文字改成英文",模型只改你要求的部分,保留其余画面。这种"对话式编辑"让视频生成从一次性渲染变成了可迭代的工作流。

实际操作中,开发者可以生成一段视频,然后链式修改:把猫换成小美洲狮,再把风格改成8-bit复古,再改成水彩画风格,每个版本都可以保存分支、后续继续编辑。

不只是文字提示:品牌资产可以直接"喂"进去

Omni Flash 接受的输入远不止文字。你可以同时喂给它最多7张参考图片和3段3秒以内的视频片段,模型会把这些视觉信息融入生成结果。

这意味着什么?给一张产品照片,让模型把产品放进一个厨房场景里,它会保留产品的真实颜色和大致形状,而不是凭空编一个"类似的东西"。对于品牌营销来说,Logo、产品图、特定场景照片可以直接作为素材输入,而不是靠文字描述去"碰运气"。

模型还内置了世界模型——对物理场景的理解。比如你要求给画面加上小雨,它不只是叠加雨滴特效,还会在湿漉漉的路面上渲染出人物和物体的倒影。这种物理一致性是区分"看起来像AI"和"接近真实画面"的关键。

文字和Logo插入也是亮点。你可以让模型把画面中的招牌文字替换成另一种语言,或者插入品牌Logo。不过 VentureBeat 的测试反馈是:复杂场景中招牌追踪不够稳定,有些帧的文字会"滑回"原语言。这个功能有用,但还没到完全放心的程度。

定价:便宜,但有分辨率天花板

Omni Flash 的定价很激进:每秒720p视频$0.10,一段10秒的视频大约$1。跟 Google 自家的 Veo 系列对比:

| | 720p | 1080p | 4K |

|---|---|---|---|

| Omni Flash | $0.10/秒 | ❌ | ❌ |

| Veo 3.1 Lite | $0.05/秒 | $0.08/秒 | ❌ |

| Veo 3.1 Fast | $0.10/秒 | $0.12/秒 | $0.30/秒 |

| Veo 3.1 | $0.40/秒 | $0.40/秒 | $0.60/秒 |

价格跟 Veo 3.1 Fast 的720p持平,但 Omni Flash 只有720p,没有1080p和4K选项。片段长度3-10秒,支持横屏(16:9)和竖屏(9:16)。输出标准MP4,每段都带 SynthID 水印和 C2PA 内容凭证。

对于内部培训视频、社交媒体内容,720p够用。但品牌广告、大屏展示,这个分辨率就是硬伤——Veo 3.1 仍然有存在的理由。

需要注意的是,每次对话式编辑都是一次新的生成调用,都要付费。虽然不用从头来减少了"浪费的生成",但迭代多了费用也会累积。

安全红线:能做什么和不能做什么

Google 在安全方面画了几条明确的线:

  • 每段视频都带 SynthID 水印,肉眼不可见但可机器检测
  • C2PA 内容凭证覆盖所有生成内容
  • AI Content Detection API 可检测 Google 和其他厂商的 AI 生成内容
  • 明确禁止照片+音频的 lip-sync:不能给一张人脸照片配上音频让它"说话",这是防 deepfake 的核心限制
  • 允许语言翻译:可以录一段人说话的视频,翻译成另一种语言,这对全球化培训内容很有用

对合规要求高的企业来说,这些内置的安全机制是加分项,而不是限制。

竞争格局

在 LMArena 的 Text-to-Video 排行榜上,Omni Flash 目前排名第一(1527分),这是用户盲评的结果,有一定参考价值。

但视频生成赛道的竞争远没到终局。Google 内部 Veo 3.1 仍是高分辨率场景的主力;外部字节跳动、阿里、OpenAI 都在抢同一块市场。Omni Flash 的差异化在于"对话式编辑"本身——把视频当成可迭代的活文档,而不是一次性渲染的成品。

谁该关注

  • 营销和培训团队:需要快速出视频、频繁修改的场景,对话式编辑能显著减少返工
  • 全球化企业:视频语言翻译功能直接可用
  • 品牌方:参考图输入让品牌资产可控地出现在生成画面中
  • 暂时不适合:需要1080p以上分辨率、需要长视频(超过10秒)、需要精确文字渲染的场景

Omni Flash 不是视频生成的终极形态,但它把交互方式往前推了一步:从"写提示词碰运气"到"像编辑文档一样编辑视频"。这个方向本身,可能比模型参数的提升更值得关注。

---

基于 VentureBeat 等多家媒体转述整理。参考来源:

  • https://venturebeat.com/technology/googles-gemini-omni-flash-hits-the-api-turning-enterprise-video-production-into-a-conversation
  • https://deepmind.google/models/model-cards/gemini-omni-flash/

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。