DramaBox：基于 LTX-2.3 的导演级 AI 音频演绎模型，Prompt 驱动情感表达 + 10 秒声音克隆

分类: 语音模型 |发布于: 5/19/2026 |最后更新: 5/19/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

导读

DramaBox 是 Resemble AI 基于 Lightricks 开源的 LTX-2.3 音频分支微调的表达性 TTS 模型。它的核心能力是：用自然语言描述情感、语气、停顿和状态，模型直接生成带有丰富情感层次的语音——不需要手动标注韵律，不需要复杂的音频后期。配合 10 秒参考音频，还能克隆目标音色。

这不是又一个"文字转语音"工具。DramaBox 的定位是"导演级音频演绎"：你像写剧本一样写 prompt，模型像演员一样演绎。

---

一、3 分钟看懂版

是什么： Resemble AI 在 LTX-2.3 3.3B 音频模型上做的 IC-LoRA 微调，专注于情感表达和提示词遵从度。

能干什么：

用文字控制语音的情感、语气、笑声、叹气、停顿
10 秒参考音频即可克隆音色
英文效果极强，情感层次丰富到可以做专业配音

硬件要求： ~24 GB VRAM（推荐 H100/A100/4090）

一句话判断： 如果你需要英文配音、有声书、游戏角色语音、情感丰富的对话生成——这是目前开源方案里表现力最强的选择。中文用户需注意：中文会有读错字的问题。

---

二、核心能力详解

Prompt 驱动的情感控制

DramaBox 的 prompt 写法类似剧本：

引号外：描述说话者的状态、语气、动作（如"用嘲讽的冷笑说""愤怒地变得尖锐""传了口气，长时间沉默"）
引号内：实际要说的台词

示例 prompt：

```

一个散音低沉的恶棍，用一种夸张的威胁的语气说到，"嘿嘿哈哈，原谅我原谅我"，然后传了口气

```

模型会自动处理情感切换、语速变化、呼吸停顿，不需要手动标注。

声音克隆

提供 10 秒以上的参考音频，模型会克隆目标音色。但有一个重要细节：提示词描述的优先级高于参考音频。

实测发现：

如果参考音频是女声，但 prompt 里写"一个恶棍"，生成结果会偏向男声
如果想保持参考音色，prompt 里需要明确描述与参考一致的特征
两者要"合一"时，用中性描述词（如"用成功的声音"）效果最好

情感表现力

B 站 UP 主 T8star-Aix 实测展示了多种情感切换：嘲讽→愤怒→温柔→夸张威胁，模型能在同一段音频中自然过渡。这是 DramaBox 与普通 TTS 最大的区别——它不是"读字"，而是"演绎"。

---

三、参数调节指南

| 参数 | 默认值 | 作用 | 调节建议 |

|------|--------|------|----------|

关键技巧：

觉得情感不够强烈？先试提高 STG Scale（小幅度，如 +0.5）
CFG 过高会导致"过饱和"（声音失真），STG 不会
中文读错字时，尝试换同音字或改用拼音标注

---

四、使用方式

方式一：ComfyUI 工作流（推荐新手）

T8star-Aix 已制作 ComfyUI 节点和工作流，可在 RunningHub 平台直接体验：

文生音频工作流：纯 prompt 生成
参考音频工作流：prompt + 参考音频

RunningHub 注册送 1000 点，每天登录 +100 点，足够体验。

方式二：Python CLI

```bash

python src/inference.py \

--voice-sample reference.wav \

--prompt 'A woman speaks warmly, "Hello, how are you today?"' \

--output output.wav \

--cfg-scale 2.5 --stg-scale 1.5

```

方式三：Gradio App

```bash

CUDA_VISIBLE_DEVICES=0 python app.py

```

方式四：Python Server（推荐批量生成）

```python

from src.inference_server import TTSServer

server = TTSServer(device="cuda")

server.generate_to_file(

prompt='A woman speaks warmly, "Hello, how are you today?"',

output="output.wav",

voice_ref="reference.wav" # 可选

)

```

---

五、适用场景与局限

最适合

英文有声书 / 播客配音
游戏角色语音（多情感切换）
影视级配音预览
情感丰富的对话生成（AI 伴侣、虚拟主播）
需要"演技"而非"朗读"的场景

不适合

中文精确朗读（会读错字）
实时对话（生成速度 ~2.5s/段，非流式）
低显存设备（需 24GB VRAM）
多语言混合场景

已知局限

中文准确度不足，部分字会持续读错，换同音字可缓解
参考音频的影响力有限，prompt 描述才是主导
商用需要 LTX-2 Community License 授权

---

六、行业意义

DramaBox 代表了 TTS 领域的一个重要方向转变：从"准确朗读"到"情感演绎"。传统 TTS 追求的是字正腔圆、不读错字；DramaBox 追求的是像真人演员一样表达情感——哪怕偶尔读错字，情感的真实感和层次感远超传统方案。

对于内容创作者来说，这意味着：

有声书制作成本可能大幅下降（不再需要专业配音演员做情感表达）
游戏/动画的语音制作流程可以前置到剧本阶段
AI 虚拟角色的"人味"会显著提升

Resemble AI 选择在 LTX-2.3 基础上开源这个项目，也说明音频模型的开源生态正在快速成熟。

---

来源与参考

B 站视频：T8star-Aix《吊打闭源，这才是王炸！最强导演级AI音频演绎模型DramaBox》（BV1ENLw6kEP5，2026-05-18）
GitHub：https://github.com/resemble-ai/DramaBox
HuggingFace 模型：ResembleAI/Dramabox
基座模型：Lightricks/LTX-2.3（LTX-2 Community License）

*本文基于 B 站 UP 主 T8star-Aix 的实测视频内容整理，结合项目官方文档补充技术细节。视频内容经 ASR 转写还原。*

参考来源

https://www.bilibili.com/video/BV1ENLw6kEP5/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。