VoxCPM2 开源发布:支持30语言的多语种TTS,声音设计与可控克隆
VoxCPM2 开源发布:支持30语言的多语种TTS,声音设计与可控克隆
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
如果你关注开源语音合成领域,OpenBMB 团队最近开源的 VoxCPM2 值得一看。这是一个 2B 参数的多语种 TTS 模型,支持 30 种语言(包括 9 种中国方言),不仅能克隆声音,还能用自然语言描述创建全新的声音。最关键的是,它在 Apache-2.0 许可下完全开源,可以商用。
这次发布了什么?
VoxCPM2 是 OpenBMB 团队的最新开源 TTS 模型,基于 MiniCPM-4 语言模型,采用无分词器(tokenizer-free)的扩散自回归架构。简单说,它不需要先把语音切成离散的 token,而是直接在连续的语音表示空间里生成,这让合成效果更自然、更有表现力。
模型在 GitHub 上显示为 2026 年 4 月发布,GitHub 仓库于 4 月 15 日更新,在 48 小时窗口内。
能做什么?
声音设计(Voice Design)
这是 VoxCPM2 的一大亮点。你不需要提供任何参考音频,只需要用自然语言描述你想要的声音,比如"一位年轻女性,温柔甜美的声音",模型就能生成符合描述的声音。这对于需要快速创作角色配音的场景很实用。
可控声音克隆
提供一段短参考音频,模型就能克隆声音。而且你可以控制风格——比如让克隆的声音"稍微快一点、愉快一点",同时保留原声音的音色。这对于需要调整语速和情感的配音工作很有帮助。
高保真克隆
如果同时提供参考音频和其转录文本,模型能做到"忠实还原"——不仅仅是克隆音色,连语调、情感、节奏都能保留。这个功能和之前的 VoxCPM1.5 一致,适合需要精确复刻的场景。
48kHz 高质量输出
模型直接输出 48kHz 的录音棚级别音频,不需要额外的高清化处理。它接受 16kHz 的参考音频,但输出是 48kHz,内置了超分辨率能力。
支持哪些语言?
官方支持 30 种语言:阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、塔加洛语、泰语、土耳其语、越南语。
中国方言方面支持:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。
表现如何?
在公开基准测试中,VoxCPM2 达到或接近当前最好水平:
- Seed-TTS-eval 测试中,英文 WER 1.84%,中文 CER 0.97%
- 在多语种 ASR 基准中,30 种语言平均 WER 为 1.68%
- 声音相似度评分(SIM)在多个语言上达到 80% 以上
团队还测试了指令控制能力,在 InstructTTSEval 基准上表现良好。
怎么用?
安装很简单:
```bash
pip install voxcpm
```
基本用法:
```python
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained("openbmb/VoxCPM2", load_denoiser=False)
wav = model.generate(
text="VoxCPM2 is the current recommended release for realistic multilingual speech synthesis.",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)
```
在线体验:https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
适合什么场景?
- 多语种内容创作:播客、有声书、视频配音
- 游戏角色配音:快速创建角色声音,保持一致性
- 教育内容本地化:同一内容生成多语言版本
- 无障碍辅助:为视障用户提供高质量语音服务
硬件要求
官方数据显示,在 NVIDIA RTX 4090 上实时因子(RTF)约为 0.3。如果使用 Nano-VLLM 加速引擎,RTF 可达 0.13。显存占用约 8GB。
来源说明
本文基于 OpenBMB 官方 GitHub README 整理,发布时间标注为 [2026.04]。模型权重在 HuggingFace 和 ModelScope 均可下载。
- GitHub:https://github.com/OpenBMB/VoxCPM
- HuggingFace:https://huggingface.co/openbmb/VoxCPM2
- 文档:https://voxcpm.readthedocs.io/en/latest/
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。