xAI 发布 Grok Imagine Video 1.5：图生视频排行榜登顶，音画同步成最大杀手锏

2026年6月17日78 次阅读

Grok Imagine Video 1.5：图生视频排行榜登顶，音画同步成最大杀手锏

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

6月17日，xAI 正式发布 Grok Imagine Video 1.5，结束了此前数周的 Preview 阶段。新模型自称"最佳图生视频模型"——而 Image-to-Video Arena 排行榜的数据确实给了它这个底气：Video 1.5 比前代高出 52 Elo，超越 ByteDance Seedance 2.0、Alibaba HappyHorse 1.0 和 Google Veo，直接登顶。

从 Preview 到正式发布，两个版本并行

Video 1.5 现在有两个版本：

Grok Imagine Video 1.5：通过 xAI API 提供，走最高质量路线，支持 720p 24fps、6-15 秒片段
Grok Imagine Video 1.5 Fast：在 grok.com/imagine 及 iOS/Android App 上可用，6 秒 720p 视频约 25 秒生成，比前代快约 40%

两个版本的定位很清晰：API 版给开发者和专业管线用，Fast 版给普通创作者快速出草稿。

音画同步：这次不是后期配音，是原生生成

Video 1.5 最大的差异化卖点是音画同步。之前的视频生成模型，音频基本是"后贴"的——画面生成完再加音效，对不上是常态。Video 1.5 改变了这个流程：

音效、环境音、对话在同一轮生成中完成，直接落在画面动作上
语音更清晰、口型对齐更准确
不再需要单独的 TTS 或音效工具做二次对齐

对于做短视频、广告素材的创作者来说，这意味着从"生成视频 → 找音效 → 手动对时间线"缩减到"一次生成，音画齐活"。

运动和物理：更少变形，更可信的重量感

前代模型常见的"画面扭曲"（warp）问题在 1.5 中明显减少。物体运动时的重量感和动量更可信——人走路不再像飘着，物体下落有了合理的加速度。这听起来是基础要求，但在 AI 视频生成领域，物理一致性一直是老大难。

排行榜数据：52 Elo 的差距意味着什么

Image-to-Video Arena 是目前业内最常用的图生视频评测基准，采用人类盲评打分。Video 1.5 比前代高出 52 Elo，这是什么概念？在 Elo 体系里，50 分以上的差距通常意味着"可感知的明显优势"。它同时超过了 Seedance 2.0、HappyHorse 1.0 和 Google Veo——虽然排行榜会随新模型上线而波动，但至少在发布当天，xAI 拿到了第一。

Grok Imagine 平台也更新了

除了模型本身，xAI 还给 Grok Imagine 平台加了几项新功能：

Projects：左侧栏按项目组织作品
多 Agent 并行：同时跑多个提示词，各自生成
搜索：在历史作品中按关键词查找
博客：直接在平台发布内容

这些功能在未来几天陆续上线，主要解决的是"生成多了找不到"和"批量出图效率低"的痛点。

短木板仍在：720p 和 15 秒上限

Video 1.5 的进步是实在的，但天花板也明显：

分辨率停在 720p，而 Kling 3.0 已经支持更高分辨率，Seedance 2.0 可达 1080p
最长 15 秒，对于需要叙事连贯性的场景仍然不够
音画同步目前只支持英文语音，中文和其他语言的支持情况未明确

在视频生成赛道上，xAI 用"速度+音画同步"打出了差异化，但分辨率和时长仍是短板。Google Veo、Seedance、Kling 各有长板——这场竞赛远没到终局。

---

*基于多家媒体转述整理，主要来源：xAI 官方公告、The Tech Outlook、NewsX*

参考来源

https://www.thetechoutlook.com/new-release/software-apps/xai-introduces-its-new-image-to-video-model-grok-imagine-video-1-5-new-features-rolled-out-for-grok-imagine/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。