Grok Imagine Video 1.5:图生视频排行榜登顶,音画同步成最大杀手锏
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
6月17日,xAI 正式发布 Grok Imagine Video 1.5,结束了此前数周的 Preview 阶段。新模型自称"最佳图生视频模型"——而 Image-to-Video Arena 排行榜的数据确实给了它这个底气:Video 1.5 比前代高出 52 Elo,超越 ByteDance Seedance 2.0、Alibaba HappyHorse 1.0 和 Google Veo,直接登顶。
从 Preview 到正式发布,两个版本并行
Video 1.5 现在有两个版本:
- Grok Imagine Video 1.5:通过 xAI API 提供,走最高质量路线,支持 720p 24fps、6-15 秒片段
- Grok Imagine Video 1.5 Fast:在 grok.com/imagine 及 iOS/Android App 上可用,6 秒 720p 视频约 25 秒生成,比前代快约 40%
两个版本的定位很清晰:API 版给开发者和专业管线用,Fast 版给普通创作者快速出草稿。
音画同步:这次不是后期配音,是原生生成
Video 1.5 最大的差异化卖点是音画同步。之前的视频生成模型,音频基本是"后贴"的——画面生成完再加音效,对不上是常态。Video 1.5 改变了这个流程:
- 音效、环境音、对话在同一轮生成中完成,直接落在画面动作上
- 语音更清晰、口型对齐更准确
- 不再需要单独的 TTS 或音效工具做二次对齐
对于做短视频、广告素材的创作者来说,这意味着从"生成视频 → 找音效 → 手动对时间线"缩减到"一次生成,音画齐活"。
运动和物理:更少变形,更可信的重量感
前代模型常见的"画面扭曲"(warp)问题在 1.5 中明显减少。物体运动时的重量感和动量更可信——人走路不再像飘着,物体下落有了合理的加速度。这听起来是基础要求,但在 AI 视频生成领域,物理一致性一直是老大难。
排行榜数据:52 Elo 的差距意味着什么
Image-to-Video Arena 是目前业内最常用的图生视频评测基准,采用人类盲评打分。Video 1.5 比前代高出 52 Elo,这是什么概念?在 Elo 体系里,50 分以上的差距通常意味着"可感知的明显优势"。它同时超过了 Seedance 2.0、HappyHorse 1.0 和 Google Veo——虽然排行榜会随新模型上线而波动,但至少在发布当天,xAI 拿到了第一。
Grok Imagine 平台也更新了
除了模型本身,xAI 还给 Grok Imagine 平台加了几项新功能:
- Projects:左侧栏按项目组织作品
- 多 Agent 并行:同时跑多个提示词,各自生成
- 搜索:在历史作品中按关键词查找
- 博客:直接在平台发布内容
这些功能在未来几天陆续上线,主要解决的是"生成多了找不到"和"批量出图效率低"的痛点。
短木板仍在:720p 和 15 秒上限
Video 1.5 的进步是实在的,但天花板也明显:
- 分辨率停在 720p,而 Kling 3.0 已经支持更高分辨率,Seedance 2.0 可达 1080p
- 最长 15 秒,对于需要叙事连贯性的场景仍然不够
- 音画同步目前只支持英文语音,中文和其他语言的支持情况未明确
在视频生成赛道上,xAI 用"速度+音画同步"打出了差异化,但分辨率和时长仍是短板。Google Veo、Seedance、Kling 各有长板——这场竞赛远没到终局。
---
*基于多家媒体转述整理,主要来源:xAI 官方公告、The Tech Outlook、NewsX*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。