VoxCPM2 开源发布:支持30语言的多语种TTS,声音设计与可控克隆

分类: 语音模型 |发布于: 4/15/2026 |最后更新: 4/15/2026
VoxCPM2 开源发布:支持30语言的多语种TTS,声音设计与可控克隆

VoxCPM2 开源发布:支持30语言的多语种TTS,声音设计与可控克隆

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

如果你关注开源语音合成领域,OpenBMB 团队最近开源的 VoxCPM2 值得一看。这是一个 2B 参数的多语种 TTS 模型,支持 30 种语言(包括 9 种中国方言),不仅能克隆声音,还能用自然语言描述创建全新的声音。最关键的是,它在 Apache-2.0 许可下完全开源,可以商用。

这次发布了什么?

VoxCPM2 是 OpenBMB 团队的最新开源 TTS 模型,基于 MiniCPM-4 语言模型,采用无分词器(tokenizer-free)的扩散自回归架构。简单说,它不需要先把语音切成离散的 token,而是直接在连续的语音表示空间里生成,这让合成效果更自然、更有表现力。

模型在 GitHub 上显示为 2026 年 4 月发布,GitHub 仓库于 4 月 15 日更新,在 48 小时窗口内。

能做什么?

声音设计(Voice Design)

这是 VoxCPM2 的一大亮点。你不需要提供任何参考音频,只需要用自然语言描述你想要的声音,比如"一位年轻女性,温柔甜美的声音",模型就能生成符合描述的声音。这对于需要快速创作角色配音的场景很实用。

可控声音克隆

提供一段短参考音频,模型就能克隆声音。而且你可以控制风格——比如让克隆的声音"稍微快一点、愉快一点",同时保留原声音的音色。这对于需要调整语速和情感的配音工作很有帮助。

高保真克隆

如果同时提供参考音频和其转录文本,模型能做到"忠实还原"——不仅仅是克隆音色,连语调、情感、节奏都能保留。这个功能和之前的 VoxCPM1.5 一致,适合需要精确复刻的场景。

48kHz 高质量输出

模型直接输出 48kHz 的录音棚级别音频,不需要额外的高清化处理。它接受 16kHz 的参考音频,但输出是 48kHz,内置了超分辨率能力。

支持哪些语言?

官方支持 30 种语言:阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、塔加洛语、泰语、土耳其语、越南语。

中国方言方面支持:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。

表现如何?

在公开基准测试中,VoxCPM2 达到或接近当前最好水平:

  • Seed-TTS-eval 测试中,英文 WER 1.84%,中文 CER 0.97%
  • 在多语种 ASR 基准中,30 种语言平均 WER 为 1.68%
  • 声音相似度评分(SIM)在多个语言上达到 80% 以上

团队还测试了指令控制能力,在 InstructTTSEval 基准上表现良好。

怎么用?

安装很简单:

```bash

pip install voxcpm

```

基本用法:

```python

from voxcpm import VoxCPM

import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2", load_denoiser=False)

wav = model.generate(

text="VoxCPM2 is the current recommended release for realistic multilingual speech synthesis.",

cfg_value=2.0,

inference_timesteps=10,

)

sf.write("demo.wav", wav, model.tts_model.sample_rate)

```

在线体验:https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

适合什么场景?

  • 多语种内容创作:播客、有声书、视频配音
  • 游戏角色配音:快速创建角色声音,保持一致性
  • 教育内容本地化:同一内容生成多语言版本
  • 无障碍辅助:为视障用户提供高质量语音服务

硬件要求

官方数据显示,在 NVIDIA RTX 4090 上实时因子(RTF)约为 0.3。如果使用 Nano-VLLM 加速引擎,RTF 可达 0.13。显存占用约 8GB。

来源说明

本文基于 OpenBMB 官方 GitHub README 整理,发布时间标注为 [2026.04]。模型权重在 HuggingFace 和 ModelScope 均可下载。

  • GitHub:https://github.com/OpenBMB/VoxCPM
  • HuggingFace:https://huggingface.co/openbmb/VoxCPM2
  • 文档:https://voxcpm.readthedocs.io/en/latest/

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。