LTX-2.3 大升级：原生竖屏 + HDR + 可控运镜，开源视频模型进入导演级时代

分类: 视频模型 |发布于: 5/19/2026 |最后更新: 5/19/2026

LTX-2.3 大升级：原生竖屏 + HDR + 可控运镜，开源视频模型进入"导演级"时代

5 月 19 日发布 · 开源视频生成引擎全面升级 · 10 项核心改进 + 3 项生产级新能力

5 月 19 日，LTX Studio 发布了 LTX-2.3——这是其视频生成引擎的一次全面升级。如果你之前用过 LTX-2，最大的感受可能是"画面还行，但细节糊、指令不听、图生视频只会慢推"。LTX-2.3 把这些痛点挨个修了，还补上了三个生产级能力：原生竖屏 1080×1920、HDR 输出、深度/姿态/运镜三维度可控生成。对于一个开源可本地部署的视频模型来说，这是从"能看"到"能用"的关键一步。

先说结论：这次升级解决了什么

一句话：让开源视频模型第一次覆盖了从创作到交付的关键环节。

之前开源视频模型的尴尬在于——生成的视频 demo 看着不错，但真拿去做内容，要么没有竖屏（裁切又丢构图），要么没有 HDR（后期调色空间不够），要么指令稍微复杂就跑偏，图生视频只会做缓慢推拉的"幻灯片"。LTX-2.3 逐个补齐了这些缺口。

十大升级，逐个拆解

1. 更锐利的细节：重建 VAE

LTX-2.3 重建了潜在空间，配合更新版 VAE，用更高质量数据训练。效果体现在：细纹理（布料、皮肤）、发丝、画面中的文字、物体边缘——这些以前最容易糊的地方，现在在整条生成管线中保持更好。

对创作者意味着什么：不需要再做额外的超分/锐化后处理，出图即可用。

2. 4 倍文本连接器：复杂 Prompt 终于能听懂

文本连接器扩大到原来的 4 倍。以前写"一个穿红裙的女人在雨天咖啡馆窗边看书，窗外有路人走过"这种多主体+空间关系+风格的 Prompt，模型经常只理解一半。现在官方建议：试试写得更具体，模型能接住。

实际价值：减少"抽卡"次数。同样一个画面构思，以前要生成 20 次才有 1 次满意，现在可能 5 次就够。

3. 图生视频：终于不是"Ken Burns 特效"了

图生视频（Image-to-Video）一直是视频模型的痛点——大部分模型拿到一张图，只会做缓慢的推拉平移，画面像幻灯片加了个转场。LTX-2.3 明显减少了这种"冻结帧 + Ken Burns"的现象，产生更真实的运动，输入帧的视觉一致性也更好。

对比体感：以前 10 个图生视频可能 7 个要扔掉，现在可能只有 2-3 个不满意。

4. 音频更干净

过滤了训练数据、换了新 vocoder。减少伪影和意外掉音，文本生视频和音频条件工作流的同步性更紧。

注意：这里的"音频"主要是 BGM 和环境音，不是 lip-sync（对口型）。

⚠️ 如果你需要角色对口型说话，LTX-2.3 目前不是最优选择——可灵 2.0 和 Veo 3.1 在 lip-sync 方面更强。

5. 原生竖屏 1080×1920：短视频创作者的刚需

这是本次升级最实用的功能之一。不是从横屏裁切，而是用竖屏方向数据训练。为什么这很重要？裁切横屏意味着你丢失了左右构图信息，竖屏原生训练意味着模型从一开始就在竖屏构图下"思考"——人物站位、前景背景关系都是为竖屏优化的。

直接输出 1080×1920，短视频、Reels、小红书、抖音内容拿来即用。

6. 生产级 HDR 输出

以 IC-LoRA（In-Context LoRA）形式搭载在 LTX-2.3 上。两种用法：

直接生成 HDR：从零开始就是 HDR 内容
SDR 转 EXR：把已有的 SDR 素材转成 EXR 格式，获得更大的后期调色空间

谁需要这个：专业后期团队、广告制作、需要和实拍 HDR 素材合成的项目。这是开源视频模型里第一个支持原生 HDR 输出的。

7. 三维度可控生成

这是"导演级"能力的核心：

控制维度	原理	你能做什么
深度感知	基于深度图引导生成	保持场景的空间结构——前景在哪、背景在哪，模型不乱猜
OpenPose	骨骼姿态关键点驱动	精确控制角色的动作和姿势——手举到哪里、头转向哪边
运镜控制	相机轨迹参数	指定 Dolly in（推）、Dolly out（拉）、Dolly left（横移）等电影镜头运动

举个例子：你想要"航拍镜头缓缓推向沙漠山顶，黄金时段"，以前只能靠文字描述碰运气。现在你可以指定深度图（告诉模型山在哪）、指定运镜（Dolly in + 缓慢），模型按你的意图生成。

8. LoRA 风格定制

支持训练风格 LoRA——上传参考图片或视频，模型学习你的视觉风格。官方展示了"毛毡定格动画"风格的 LoRA，4 个不同场景都保持了高度一致的毛毡质感。

价值：品牌视觉统一、个人风格复制、系列内容保持一致性。训练一个 LoRA 大约需要 10-30 张参考图，一次训练后反复使用。

9. 视频编辑：不用从零开始

Retake（重拍）：保持原视频的镜头结构和节奏，替换内容元素。官方示例：同一段客厅镜头，分别替换为"火焰吞噬"场景、"触手蔓延"场景、"小狗嬉闹"场景——镜头运动一致，内容完全不同。
Extend Scene（延长场景）：在已有视频基础上延长时长，不破坏已有画面。

10. 双生成流

Fast 流：快速迭代，适合试镜头、看构图。支持 1080p/1440p/4K，24-50fps，最长 20 秒。
Pro 流：最高保真输出，增强细节和跨镜头一致性。适合最终交付。

实际工作流：先用 Fast 流快速试不同 Prompt 和运镜组合，选定满意的配置后切 Pro 流出最终版。

开源可本地部署：这是最大的差异化

在当前视频模型市场，Runway Gen-4.5、可灵 2.0、Veo 3.1 都是闭源 API 服务。LTX-2.3 是少数几个权重开源、可本地部署的视频生成模型。

这意味着：

数据不出你的机器：企业内容、品牌素材不需要上传到第三方服务器
可深度定制：训练 LoRA、接入 ComfyUI 工作流、嵌入自己的管线
无 API 调用费：长期使用成本更低（前提是你有 GPU）

ComfyUI 社区已经发布了 LTX Director 插件，支持拖拽多帧控制运镜，降低了使用门槛。

与主流竞品对比

能力	LTX-2.3	Runway Gen-4.5	可灵 2.0	Veo 3.1
开源可本地部署	✅	❌	❌	❌
原生竖屏	✅	✅	✅	✅
HDR 输出	✅ (IC-LoRA)	❌	❌	❌
运镜控制	✅ (3 维度)	✅	✅	有限
LoRA 风格定制	✅	❌	❌	❌
视频编辑 (Retake)	✅	✅	有限	有限
Lip-sync	❌	有限	✅	✅ 原生
本地部署	✅	❌	❌	❌
定价	免费+付费	订阅制	订阅制	订阅制

💡 核心差异化：LTX-2.3 = 开源 + HDR + 本地部署 + LoRA。适合对数据隐私、生产管线可控性、长期成本有要求的团队和个人。

适用场景与不适用场景

✅ 适合用 LTX-2.3 的情况：

短视频/社交媒体竖屏内容批量制作
需要 HDR 交付的广告/品牌视频
需要精确控制运镜和角色姿态的导演型创作
风格化动画/实验短片（LoRA 定制风格）
已有素材的局部编辑（Retake 换内容、Extend 延时长）
数据不能外传的企业内容制作

❌ 不太适合的情况：

需要角色对口型说话的场景（当前 lip-sync 不是 LTX 的强项）
实时生成（Pro 流渲染时间较长，不适合交互式场景）
跨多镜头长篇叙事中的角色一致性（这是全行业难题，LTX 也没有完全解决）
没有 GPU 又需要大量出图（本地部署门槛）

新手第一步建议

注册体验：去 ltx.io 注册免费账号，试试文字生视频，感受一下细节和 Prompt 遵从的提升
图生视频：上传一张图，对比看看运动效果是否比之前的"慢推"好
试运镜控制：选一个场景，分别试 Dolly in 和 Dolly out，体会可控生成
ComfyUI 进阶：如果想要更精细控制，装 LTX Director 插件，做拖拽式运镜编排

---

*基于 LTX 官方产品页及多家媒体转述整理。LTX-2.3 发布时间为 2026 年 5 月 19 日。*

参考来源

https://ltx.io/model/ltx-2-3

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。