DramaBox:基于 LTX-2.3 的导演级 AI 音频演绎模型,Prompt 驱动情感表达 + 10 秒声音克隆

分类: 语音模型 |发布于: 5/19/2026 |最后更新: 5/19/2026
DramaBox:基于 LTX-2.3 的导演级 AI 音频演绎模型,Prompt 驱动情感表达 + 10 秒声音克隆

DramaBox:基于 LTX-2.3 的导演级 AI 音频演绎模型,Prompt 驱动情感表达 + 10 秒声音克隆

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

导读

DramaBox 是 Resemble AI 基于 Lightricks 开源的 LTX-2.3 音频分支微调的表达性 TTS 模型。它的核心能力是:用自然语言描述情感、语气、停顿和状态,模型直接生成带有丰富情感层次的语音——不需要手动标注韵律,不需要复杂的音频后期。配合 10 秒参考音频,还能克隆目标音色。

这不是又一个"文字转语音"工具。DramaBox 的定位是"导演级音频演绎":你像写剧本一样写 prompt,模型像演员一样演绎。

---

一、3 分钟看懂版

是什么: Resemble AI 在 LTX-2.3 3.3B 音频模型上做的 IC-LoRA 微调,专注于情感表达和提示词遵从度。

能干什么:

  • 用文字控制语音的情感、语气、笑声、叹气、停顿
  • 10 秒参考音频即可克隆音色
  • 英文效果极强,情感层次丰富到可以做专业配音

硬件要求: ~24 GB VRAM(推荐 H100/A100/4090)

一句话判断: 如果你需要英文配音、有声书、游戏角色语音、情感丰富的对话生成——这是目前开源方案里表现力最强的选择。中文用户需注意:中文会有读错字的问题。

---

二、核心能力详解

Prompt 驱动的情感控制

DramaBox 的 prompt 写法类似剧本:

  • 引号外:描述说话者的状态、语气、动作(如"用嘲讽的冷笑说""愤怒地变得尖锐""传了口气,长时间沉默")
  • 引号内:实际要说的台词

示例 prompt:

```

一个散音低沉的恶棍,用一种夸张的威胁的语气说到,"嘿嘿哈哈,原谅我原谅我",然后传了口气

```

模型会自动处理情感切换、语速变化、呼吸停顿,不需要手动标注。

声音克隆

提供 10 秒以上的参考音频,模型会克隆目标音色。但有一个重要细节:提示词描述的优先级高于参考音频

实测发现:

  • 如果参考音频是女声,但 prompt 里写"一个恶棍",生成结果会偏向男声
  • 如果想保持参考音色,prompt 里需要明确描述与参考一致的特征
  • 两者要"合一"时,用中性描述词(如"用成功的声音")效果最好

情感表现力

B 站 UP 主 T8star-Aix 实测展示了多种情感切换:嘲讽→愤怒→温柔→夸张威胁,模型能在同一段音频中自然过渡。这是 DramaBox 与普通 TTS 最大的区别——它不是"读字",而是"演绎"。

---

三、参数调节指南

| 参数 | 默认值 | 作用 | 调节建议 |

|------|--------|------|----------|

| CFG Scale | 2.5 | 控制文本遵从度 | 低→更自然;高→更遵循 prompt 但可能过饱和 |

| STG Scale | 1.5 | Skip-Token Guidance,提高表现力 | 比 CFG 更安全地提升表现力,不易过饱和 |

| Duration Multiplier | 1.1 | 时长系数 | 默认多 10% 呼吸空间,一般不用改 |

| Steps | 30 | 推理步数 | Euler flow matching,默认即可 |

| Watermark | 开启 | 音频水印 | 可关闭,但商用需授权 |

关键技巧:

  • 觉得情感不够强烈?先试提高 STG Scale(小幅度,如 +0.5)
  • CFG 过高会导致"过饱和"(声音失真),STG 不会
  • 中文读错字时,尝试换同音字或改用拼音标注

---

四、使用方式

方式一:ComfyUI 工作流(推荐新手)

T8star-Aix 已制作 ComfyUI 节点和工作流,可在 RunningHub 平台直接体验:

  • 文生音频工作流:纯 prompt 生成
  • 参考音频工作流:prompt + 参考音频

RunningHub 注册送 1000 点,每天登录 +100 点,足够体验。

方式二:Python CLI

```bash

python src/inference.py \

--voice-sample reference.wav \

--prompt 'A woman speaks warmly, "Hello, how are you today?"' \

--output output.wav \

--cfg-scale 2.5 --stg-scale 1.5

```

方式三:Gradio App

```bash

CUDA_VISIBLE_DEVICES=0 python app.py

```

方式四:Python Server(推荐批量生成)

```python

from src.inference_server import TTSServer

server = TTSServer(device="cuda")

server.generate_to_file(

prompt='A woman speaks warmly, "Hello, how are you today?"',

output="output.wav",

voice_ref="reference.wav" # 可选

)

```

---

五、适用场景与局限

最适合

  • 英文有声书 / 播客配音
  • 游戏角色语音(多情感切换)
  • 影视级配音预览
  • 情感丰富的对话生成(AI 伴侣、虚拟主播)
  • 需要"演技"而非"朗读"的场景

不适合

  • 中文精确朗读(会读错字)
  • 实时对话(生成速度 ~2.5s/段,非流式)
  • 低显存设备(需 24GB VRAM)
  • 多语言混合场景

已知局限

  • 中文准确度不足,部分字会持续读错,换同音字可缓解
  • 参考音频的影响力有限,prompt 描述才是主导
  • 商用需要 LTX-2 Community License 授权

---

六、行业意义

DramaBox 代表了 TTS 领域的一个重要方向转变:从"准确朗读"到"情感演绎"。传统 TTS 追求的是字正腔圆、不读错字;DramaBox 追求的是像真人演员一样表达情感——哪怕偶尔读错字,情感的真实感和层次感远超传统方案。

对于内容创作者来说,这意味着:

  • 有声书制作成本可能大幅下降(不再需要专业配音演员做情感表达)
  • 游戏/动画的语音制作流程可以前置到剧本阶段
  • AI 虚拟角色的"人味"会显著提升

Resemble AI 选择在 LTX-2.3 基础上开源这个项目,也说明音频模型的开源生态正在快速成熟。

---

来源与参考

  • B 站视频:T8star-Aix《吊打闭源,这才是王炸!最强导演级AI音频演绎模型DramaBox》(BV1ENLw6kEP5,2026-05-18)
  • GitHub:https://github.com/resemble-ai/DramaBox
  • HuggingFace 模型:ResembleAI/Dramabox
  • 基座模型:Lightricks/LTX-2.3(LTX-2 Community License)

*本文基于 B 站 UP 主 T8star-Aix 的实测视频内容整理,结合项目官方文档补充技术细节。视频内容经 ASR 转写还原。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。