LTX-2.3 大升级:原生竖屏 + HDR + 可控运镜,开源视频模型进入导演级时代

分类: 视频模型 |发布于: 5/19/2026 |最后更新: 5/19/2026
LTX-2.3 大升级:原生竖屏 + HDR + 可控运镜,开源视频模型进入"导演级"时代

LTX-2.3 大升级:原生竖屏 + HDR + 可控运镜,开源视频模型进入"导演级"时代

5 月 19 日发布 · 开源视频生成引擎全面升级 · 10 项核心改进 + 3 项生产级新能力

5 月 19 日,LTX Studio 发布了 LTX-2.3——这是其视频生成引擎的一次全面升级。如果你之前用过 LTX-2,最大的感受可能是"画面还行,但细节糊、指令不听、图生视频只会慢推"。LTX-2.3 把这些痛点挨个修了,还补上了三个生产级能力:原生竖屏 1080×1920、HDR 输出、深度/姿态/运镜三维度可控生成。对于一个开源可本地部署的视频模型来说,这是从"能看"到"能用"的关键一步。

先说结论:这次升级解决了什么

一句话:让开源视频模型第一次覆盖了从创作到交付的关键环节。

之前开源视频模型的尴尬在于——生成的视频 demo 看着不错,但真拿去做内容,要么没有竖屏(裁切又丢构图),要么没有 HDR(后期调色空间不够),要么指令稍微复杂就跑偏,图生视频只会做缓慢推拉的"幻灯片"。LTX-2.3 逐个补齐了这些缺口。

十大升级,逐个拆解

1. 更锐利的细节:重建 VAE

LTX-2.3 重建了潜在空间,配合更新版 VAE,用更高质量数据训练。效果体现在:细纹理(布料、皮肤)、发丝、画面中的文字、物体边缘——这些以前最容易糊的地方,现在在整条生成管线中保持更好。

对创作者意味着什么:不需要再做额外的超分/锐化后处理,出图即可用。

2. 4 倍文本连接器:复杂 Prompt 终于能听懂

文本连接器扩大到原来的 4 倍。以前写"一个穿红裙的女人在雨天咖啡馆窗边看书,窗外有路人走过"这种多主体+空间关系+风格的 Prompt,模型经常只理解一半。现在官方建议:试试写得更具体,模型能接住。

实际价值:减少"抽卡"次数。同样一个画面构思,以前要生成 20 次才有 1 次满意,现在可能 5 次就够。

3. 图生视频:终于不是"Ken Burns 特效"了

图生视频(Image-to-Video)一直是视频模型的痛点——大部分模型拿到一张图,只会做缓慢的推拉平移,画面像幻灯片加了个转场。LTX-2.3 明显减少了这种"冻结帧 + Ken Burns"的现象,产生更真实的运动,输入帧的视觉一致性也更好。

对比体感:以前 10 个图生视频可能 7 个要扔掉,现在可能只有 2-3 个不满意。

4. 音频更干净

过滤了训练数据、换了新 vocoder。减少伪影和意外掉音,文本生视频和音频条件工作流的同步性更紧。

注意:这里的"音频"主要是 BGM 和环境音,不是 lip-sync(对口型)

⚠️ 如果你需要角色对口型说话,LTX-2.3 目前不是最优选择——可灵 2.0 和 Veo 3.1 在 lip-sync 方面更强。

5. 原生竖屏 1080×1920:短视频创作者的刚需

这是本次升级最实用的功能之一。不是从横屏裁切,而是用竖屏方向数据训练。为什么这很重要?裁切横屏意味着你丢失了左右构图信息,竖屏原生训练意味着模型从一开始就在竖屏构图下"思考"——人物站位、前景背景关系都是为竖屏优化的。

直接输出 1080×1920,短视频、Reels、小红书、抖音内容拿来即用。

6. 生产级 HDR 输出

以 IC-LoRA(In-Context LoRA)形式搭载在 LTX-2.3 上。两种用法:

  • 直接生成 HDR:从零开始就是 HDR 内容
  • SDR 转 EXR:把已有的 SDR 素材转成 EXR 格式,获得更大的后期调色空间

谁需要这个:专业后期团队、广告制作、需要和实拍 HDR 素材合成的项目。这是开源视频模型里第一个支持原生 HDR 输出的。

7. 三维度可控生成

这是"导演级"能力的核心:

控制维度原理你能做什么
深度感知基于深度图引导生成保持场景的空间结构——前景在哪、背景在哪,模型不乱猜
OpenPose骨骼姿态关键点驱动精确控制角色的动作和姿势——手举到哪里、头转向哪边
运镜控制相机轨迹参数指定 Dolly in(推)、Dolly out(拉)、Dolly left(横移)等电影镜头运动

举个例子:你想要"航拍镜头缓缓推向沙漠山顶,黄金时段",以前只能靠文字描述碰运气。现在你可以指定深度图(告诉模型山在哪)、指定运镜(Dolly in + 缓慢),模型按你的意图生成。

8. LoRA 风格定制

支持训练风格 LoRA——上传参考图片或视频,模型学习你的视觉风格。官方展示了"毛毡定格动画"风格的 LoRA,4 个不同场景都保持了高度一致的毛毡质感。

价值:品牌视觉统一、个人风格复制、系列内容保持一致性。训练一个 LoRA 大约需要 10-30 张参考图,一次训练后反复使用。

9. 视频编辑:不用从零开始

  • Retake(重拍):保持原视频的镜头结构和节奏,替换内容元素。官方示例:同一段客厅镜头,分别替换为"火焰吞噬"场景、"触手蔓延"场景、"小狗嬉闹"场景——镜头运动一致,内容完全不同。
  • Extend Scene(延长场景):在已有视频基础上延长时长,不破坏已有画面。

10. 双生成流

  • Fast 流:快速迭代,适合试镜头、看构图。支持 1080p/1440p/4K,24-50fps,最长 20 秒。
  • Pro 流:最高保真输出,增强细节和跨镜头一致性。适合最终交付。

实际工作流:先用 Fast 流快速试不同 Prompt 和运镜组合,选定满意的配置后切 Pro 流出最终版。

开源可本地部署:这是最大的差异化

在当前视频模型市场,Runway Gen-4.5、可灵 2.0、Veo 3.1 都是闭源 API 服务。LTX-2.3 是少数几个权重开源、可本地部署的视频生成模型。

这意味着:

  • 数据不出你的机器:企业内容、品牌素材不需要上传到第三方服务器
  • 可深度定制:训练 LoRA、接入 ComfyUI 工作流、嵌入自己的管线
  • 无 API 调用费:长期使用成本更低(前提是你有 GPU)

ComfyUI 社区已经发布了 LTX Director 插件,支持拖拽多帧控制运镜,降低了使用门槛。

与主流竞品对比

能力LTX-2.3Runway Gen-4.5可灵 2.0Veo 3.1
开源可本地部署
原生竖屏
HDR 输出✅ (IC-LoRA)
运镜控制✅ (3 维度)有限
LoRA 风格定制
视频编辑 (Retake)有限有限
Lip-sync有限✅ 原生
本地部署
定价免费+付费订阅制订阅制订阅制
💡 核心差异化:LTX-2.3 = 开源 + HDR + 本地部署 + LoRA。适合对数据隐私、生产管线可控性、长期成本有要求的团队和个人。

适用场景与不适用场景

✅ 适合用 LTX-2.3 的情况:

  • 短视频/社交媒体竖屏内容批量制作
  • 需要 HDR 交付的广告/品牌视频
  • 需要精确控制运镜和角色姿态的导演型创作
  • 风格化动画/实验短片(LoRA 定制风格)
  • 已有素材的局部编辑(Retake 换内容、Extend 延时长)
  • 数据不能外传的企业内容制作

❌ 不太适合的情况:

  • 需要角色对口型说话的场景(当前 lip-sync 不是 LTX 的强项)
  • 实时生成(Pro 流渲染时间较长,不适合交互式场景)
  • 跨多镜头长篇叙事中的角色一致性(这是全行业难题,LTX 也没有完全解决)
  • 没有 GPU 又需要大量出图(本地部署门槛)

新手第一步建议

  1. 注册体验:去 ltx.io 注册免费账号,试试文字生视频,感受一下细节和 Prompt 遵从的提升
  2. 图生视频:上传一张图,对比看看运动效果是否比之前的"慢推"好
  3. 试运镜控制:选一个场景,分别试 Dolly in 和 Dolly out,体会可控生成
  4. ComfyUI 进阶:如果想要更精细控制,装 LTX Director 插件,做拖拽式运镜编排

---

*基于 LTX 官方产品页及多家媒体转述整理。LTX-2.3 发布时间为 2026 年 5 月 19 日。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。