LTX-2.3 大升级:原生竖屏 + HDR + 可控运镜,开源视频模型进入导演级时代
LTX-2.3 大升级:原生竖屏 + HDR + 可控运镜,开源视频模型进入"导演级"时代
5 月 19 日发布 · 开源视频生成引擎全面升级 · 10 项核心改进 + 3 项生产级新能力
5 月 19 日,LTX Studio 发布了 LTX-2.3——这是其视频生成引擎的一次全面升级。如果你之前用过 LTX-2,最大的感受可能是"画面还行,但细节糊、指令不听、图生视频只会慢推"。LTX-2.3 把这些痛点挨个修了,还补上了三个生产级能力:原生竖屏 1080×1920、HDR 输出、深度/姿态/运镜三维度可控生成。对于一个开源可本地部署的视频模型来说,这是从"能看"到"能用"的关键一步。
先说结论:这次升级解决了什么
一句话:让开源视频模型第一次覆盖了从创作到交付的关键环节。
之前开源视频模型的尴尬在于——生成的视频 demo 看着不错,但真拿去做内容,要么没有竖屏(裁切又丢构图),要么没有 HDR(后期调色空间不够),要么指令稍微复杂就跑偏,图生视频只会做缓慢推拉的"幻灯片"。LTX-2.3 逐个补齐了这些缺口。
十大升级,逐个拆解
1. 更锐利的细节:重建 VAE
LTX-2.3 重建了潜在空间,配合更新版 VAE,用更高质量数据训练。效果体现在:细纹理(布料、皮肤)、发丝、画面中的文字、物体边缘——这些以前最容易糊的地方,现在在整条生成管线中保持更好。
对创作者意味着什么:不需要再做额外的超分/锐化后处理,出图即可用。
2. 4 倍文本连接器:复杂 Prompt 终于能听懂
文本连接器扩大到原来的 4 倍。以前写"一个穿红裙的女人在雨天咖啡馆窗边看书,窗外有路人走过"这种多主体+空间关系+风格的 Prompt,模型经常只理解一半。现在官方建议:试试写得更具体,模型能接住。
实际价值:减少"抽卡"次数。同样一个画面构思,以前要生成 20 次才有 1 次满意,现在可能 5 次就够。
3. 图生视频:终于不是"Ken Burns 特效"了
图生视频(Image-to-Video)一直是视频模型的痛点——大部分模型拿到一张图,只会做缓慢的推拉平移,画面像幻灯片加了个转场。LTX-2.3 明显减少了这种"冻结帧 + Ken Burns"的现象,产生更真实的运动,输入帧的视觉一致性也更好。
对比体感:以前 10 个图生视频可能 7 个要扔掉,现在可能只有 2-3 个不满意。
4. 音频更干净
过滤了训练数据、换了新 vocoder。减少伪影和意外掉音,文本生视频和音频条件工作流的同步性更紧。
注意:这里的"音频"主要是 BGM 和环境音,不是 lip-sync(对口型)。
5. 原生竖屏 1080×1920:短视频创作者的刚需
这是本次升级最实用的功能之一。不是从横屏裁切,而是用竖屏方向数据训练。为什么这很重要?裁切横屏意味着你丢失了左右构图信息,竖屏原生训练意味着模型从一开始就在竖屏构图下"思考"——人物站位、前景背景关系都是为竖屏优化的。
直接输出 1080×1920,短视频、Reels、小红书、抖音内容拿来即用。
6. 生产级 HDR 输出
以 IC-LoRA(In-Context LoRA)形式搭载在 LTX-2.3 上。两种用法:
- 直接生成 HDR:从零开始就是 HDR 内容
- SDR 转 EXR:把已有的 SDR 素材转成 EXR 格式,获得更大的后期调色空间
谁需要这个:专业后期团队、广告制作、需要和实拍 HDR 素材合成的项目。这是开源视频模型里第一个支持原生 HDR 输出的。
7. 三维度可控生成
这是"导演级"能力的核心:
| 控制维度 | 原理 | 你能做什么 |
|---|---|---|
| 深度感知 | 基于深度图引导生成 | 保持场景的空间结构——前景在哪、背景在哪,模型不乱猜 |
| OpenPose | 骨骼姿态关键点驱动 | 精确控制角色的动作和姿势——手举到哪里、头转向哪边 |
| 运镜控制 | 相机轨迹参数 | 指定 Dolly in(推)、Dolly out(拉)、Dolly left(横移)等电影镜头运动 |
举个例子:你想要"航拍镜头缓缓推向沙漠山顶,黄金时段",以前只能靠文字描述碰运气。现在你可以指定深度图(告诉模型山在哪)、指定运镜(Dolly in + 缓慢),模型按你的意图生成。
8. LoRA 风格定制
支持训练风格 LoRA——上传参考图片或视频,模型学习你的视觉风格。官方展示了"毛毡定格动画"风格的 LoRA,4 个不同场景都保持了高度一致的毛毡质感。
价值:品牌视觉统一、个人风格复制、系列内容保持一致性。训练一个 LoRA 大约需要 10-30 张参考图,一次训练后反复使用。
9. 视频编辑:不用从零开始
- Retake(重拍):保持原视频的镜头结构和节奏,替换内容元素。官方示例:同一段客厅镜头,分别替换为"火焰吞噬"场景、"触手蔓延"场景、"小狗嬉闹"场景——镜头运动一致,内容完全不同。
- Extend Scene(延长场景):在已有视频基础上延长时长,不破坏已有画面。
10. 双生成流
- Fast 流:快速迭代,适合试镜头、看构图。支持 1080p/1440p/4K,24-50fps,最长 20 秒。
- Pro 流:最高保真输出,增强细节和跨镜头一致性。适合最终交付。
实际工作流:先用 Fast 流快速试不同 Prompt 和运镜组合,选定满意的配置后切 Pro 流出最终版。
开源可本地部署:这是最大的差异化
在当前视频模型市场,Runway Gen-4.5、可灵 2.0、Veo 3.1 都是闭源 API 服务。LTX-2.3 是少数几个权重开源、可本地部署的视频生成模型。
这意味着:
- 数据不出你的机器:企业内容、品牌素材不需要上传到第三方服务器
- 可深度定制:训练 LoRA、接入 ComfyUI 工作流、嵌入自己的管线
- 无 API 调用费:长期使用成本更低(前提是你有 GPU)
ComfyUI 社区已经发布了 LTX Director 插件,支持拖拽多帧控制运镜,降低了使用门槛。
与主流竞品对比
| 能力 | LTX-2.3 | Runway Gen-4.5 | 可灵 2.0 | Veo 3.1 |
|---|---|---|---|---|
| 开源可本地部署 | ✅ | ❌ | ❌ | ❌ |
| 原生竖屏 | ✅ | ✅ | ✅ | ✅ |
| HDR 输出 | ✅ (IC-LoRA) | ❌ | ❌ | ❌ |
| 运镜控制 | ✅ (3 维度) | ✅ | ✅ | 有限 |
| LoRA 风格定制 | ✅ | ❌ | ❌ | ❌ |
| 视频编辑 (Retake) | ✅ | ✅ | 有限 | 有限 |
| Lip-sync | ❌ | 有限 | ✅ | ✅ 原生 |
| 本地部署 | ✅ | ❌ | ❌ | ❌ |
| 定价 | 免费+付费 | 订阅制 | 订阅制 | 订阅制 |
适用场景与不适用场景
✅ 适合用 LTX-2.3 的情况:
- 短视频/社交媒体竖屏内容批量制作
- 需要 HDR 交付的广告/品牌视频
- 需要精确控制运镜和角色姿态的导演型创作
- 风格化动画/实验短片(LoRA 定制风格)
- 已有素材的局部编辑(Retake 换内容、Extend 延时长)
- 数据不能外传的企业内容制作
❌ 不太适合的情况:
- 需要角色对口型说话的场景(当前 lip-sync 不是 LTX 的强项)
- 实时生成(Pro 流渲染时间较长,不适合交互式场景)
- 跨多镜头长篇叙事中的角色一致性(这是全行业难题,LTX 也没有完全解决)
- 没有 GPU 又需要大量出图(本地部署门槛)
新手第一步建议
- 注册体验:去 ltx.io 注册免费账号,试试文字生视频,感受一下细节和 Prompt 遵从的提升
- 图生视频:上传一张图,对比看看运动效果是否比之前的"慢推"好
- 试运镜控制:选一个场景,分别试 Dolly in 和 Dolly out,体会可控生成
- ComfyUI 进阶:如果想要更精细控制,装 LTX Director 插件,做拖拽式运镜编排
---
*基于 LTX 官方产品页及多家媒体转述整理。LTX-2.3 发布时间为 2026 年 5 月 19 日。*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。