Google Gemini Omni Flash 上线:视频生成进入「对话编辑」时代
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
6月30日,Google 正式将 Gemini Omni Flash 推向 API。这是 Google 新 "Omni" 家族的首个模型,5月在 I/O 2026 首次亮相时还只是消费者端的玩具,现在开发者和企业可以通过 API 调用了。但这次上线真正值得关注的不是"又多了一个文生视频模型",而是一个新交互方式:对话式视频编辑。
从"一次成型"到"像改文档一样改视频"
过去用 AI 生成视频,流程基本是:写提示词 → 生成 → 不满意 → 改提示词 → 重新生成。每次修改都是从零开始,之前满意的画面也一起丢掉。这就像写文档不能编辑,只能删了重写。
Omni Flash 改变了这个逻辑。它通过 Google 新推出的 interactions API 实现了状态保持——每一轮编辑都基于上一轮的结果,你可以对已生成的视频说"把背景换成雨天"、"给人物换件红色外套"、"把画面右边的招牌文字改成英文",模型只改你要求的部分,保留其余画面。这种"对话式编辑"让视频生成从一次性渲染变成了可迭代的工作流。
实际操作中,开发者可以生成一段视频,然后链式修改:把猫换成小美洲狮,再把风格改成8-bit复古,再改成水彩画风格,每个版本都可以保存分支、后续继续编辑。
不只是文字提示:品牌资产可以直接"喂"进去
Omni Flash 接受的输入远不止文字。你可以同时喂给它最多7张参考图片和3段3秒以内的视频片段,模型会把这些视觉信息融入生成结果。
这意味着什么?给一张产品照片,让模型把产品放进一个厨房场景里,它会保留产品的真实颜色和大致形状,而不是凭空编一个"类似的东西"。对于品牌营销来说,Logo、产品图、特定场景照片可以直接作为素材输入,而不是靠文字描述去"碰运气"。
模型还内置了世界模型——对物理场景的理解。比如你要求给画面加上小雨,它不只是叠加雨滴特效,还会在湿漉漉的路面上渲染出人物和物体的倒影。这种物理一致性是区分"看起来像AI"和"接近真实画面"的关键。
文字和Logo插入也是亮点。你可以让模型把画面中的招牌文字替换成另一种语言,或者插入品牌Logo。不过 VentureBeat 的测试反馈是:复杂场景中招牌追踪不够稳定,有些帧的文字会"滑回"原语言。这个功能有用,但还没到完全放心的程度。
定价:便宜,但有分辨率天花板
Omni Flash 的定价很激进:每秒720p视频$0.10,一段10秒的视频大约$1。跟 Google 自家的 Veo 系列对比:
| | 720p | 1080p | 4K |
|---|---|---|---|
| Omni Flash | $0.10/秒 | ❌ | ❌ |
| Veo 3.1 Lite | $0.05/秒 | $0.08/秒 | ❌ |
| Veo 3.1 Fast | $0.10/秒 | $0.12/秒 | $0.30/秒 |
| Veo 3.1 | $0.40/秒 | $0.40/秒 | $0.60/秒 |
价格跟 Veo 3.1 Fast 的720p持平,但 Omni Flash 只有720p,没有1080p和4K选项。片段长度3-10秒,支持横屏(16:9)和竖屏(9:16)。输出标准MP4,每段都带 SynthID 水印和 C2PA 内容凭证。
对于内部培训视频、社交媒体内容,720p够用。但品牌广告、大屏展示,这个分辨率就是硬伤——Veo 3.1 仍然有存在的理由。
需要注意的是,每次对话式编辑都是一次新的生成调用,都要付费。虽然不用从头来减少了"浪费的生成",但迭代多了费用也会累积。
安全红线:能做什么和不能做什么
Google 在安全方面画了几条明确的线:
- 每段视频都带 SynthID 水印,肉眼不可见但可机器检测
- C2PA 内容凭证覆盖所有生成内容
- AI Content Detection API 可检测 Google 和其他厂商的 AI 生成内容
- 明确禁止照片+音频的 lip-sync:不能给一张人脸照片配上音频让它"说话",这是防 deepfake 的核心限制
- 允许语言翻译:可以录一段人说话的视频,翻译成另一种语言,这对全球化培训内容很有用
对合规要求高的企业来说,这些内置的安全机制是加分项,而不是限制。
竞争格局
在 LMArena 的 Text-to-Video 排行榜上,Omni Flash 目前排名第一(1527分),这是用户盲评的结果,有一定参考价值。
但视频生成赛道的竞争远没到终局。Google 内部 Veo 3.1 仍是高分辨率场景的主力;外部字节跳动、阿里、OpenAI 都在抢同一块市场。Omni Flash 的差异化在于"对话式编辑"本身——把视频当成可迭代的活文档,而不是一次性渲染的成品。
谁该关注
- 营销和培训团队:需要快速出视频、频繁修改的场景,对话式编辑能显著减少返工
- 全球化企业:视频语言翻译功能直接可用
- 品牌方:参考图输入让品牌资产可控地出现在生成画面中
- 暂时不适合:需要1080p以上分辨率、需要长视频(超过10秒)、需要精确文字渲染的场景
Omni Flash 不是视频生成的终极形态,但它把交互方式往前推了一步:从"写提示词碰运气"到"像编辑文档一样编辑视频"。这个方向本身,可能比模型参数的提升更值得关注。
---
基于 VentureBeat 等多家媒体转述整理。参考来源:
- https://venturebeat.com/technology/googles-gemini-omni-flash-hits-the-api-turning-enterprise-video-production-into-a-conversation
- https://deepmind.google/models/model-cards/gemini-omni-flash/
参考来源
- https://venturebeat.com/technology/googles-gemini-omni-flash-hits-the-api-turning-enterprise-video-production-into-a-conversation
- https://deepmind.google/models/model-cards/gemini-omni-flash/
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。