Supertone 发布 Supertonic v3：99M 参数端侧 TTS，31 语言、CPU 直跑、2 步推理

分类: 语音模型 |发布于: 5/17/2026 |最后更新: 5/17/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

5 月 15 日，韩国语音 AI 公司 Supertone 发布了 Supertonic v3——第三代端侧文本转语音模型。新版本把语言支持从 5 种一口气拉到 31 种，参数量只有 99M，磁盘占用 404MB，不需要 GPU，纯 CPU 就能跑，两步推理即可出声。对想在手机、浏览器、IoT 设备上做本地语音合成的开发者来说，这是一个值得认真看的方案。

从 v2 到 v3：三件关键变化

语言覆盖从 5 到 31。 v2 只支持英语、韩语、西班牙语、葡萄牙语和法语。v3 新增了日语、阿拉伯语、德语、俄语、意大利语、荷兰语、波兰语、越南语等 26 种语言，外加一个 na 兜底模式——遇到未识别语言也能尝试合成，不会直接报错。

表达标签。 v3 支持在文本里嵌入 <laugh>、<breath>、<sigh> 等标签，让合成语音带上笑声、呼吸声和叹气声。这听起来是小事，但对语音助手和无障碍朗读工具来说，有没有这些"气口"直接决定了听起来像人还是像机器。不需要额外的表现力模型，一个标签就行。

读取准确率提升。 v3 减少了 v2 中偶发的"重复"和"跳过"错误——即模型在朗读时突然把某个词再说一遍或者跳过不读。这类问题在大模型上偶尔也会出现，但在端侧场景里更致命，因为用户没有耐心等第二次合成。

技术架构：为什么 99M 参数就能跑

Supertonic 的核心思路是"小而快"，不是"大而全"。架构延续了前代的三个模块：

语音自编码器：把波形编码为连续隐空间表示
Flow-matching 文本到隐空间模块：把文本映射到音频特征，只需 2 步推理（对比扩散模型动辄几十步）
时长预测器：控制自然节奏

v3 在此基础上加了两个关键改进：LARoPE（长度感知旋转位置编码）提升文本-语音对齐质量，以及 Self-Purifying Flow Matching 训练技术，让模型在含噪声标签的训练数据中仍然保持稳定。

整个模型不到 0.7B～2B 级开源 TTS 系统参数量的一半，换来的是更小的下载体积、更快的启动时间和更低的内存占用。

实际跑起来有多快

Supertone 给出了一个很有说服力的测试场景：在 Onyx Boox Go 6（一款墨水屏电纸书）上，飞行模式下，Supertonic v3 的平均实时率（RTF）是 0.3x——意味着合成 1 秒音频只需要 0.3 秒。在电纸书上都能跑，手机和笔记本上更没问题。

所有推理在设备端完成，首次下载模型资源后不需要网络连接。SDK 支持 Python、Flutter（含 macOS）、.NET 9、Go，Web 端用 onnxruntime-web 实现纯客户端执行。

内置文本归一化：一个被低估的亮点

大部分 TTS 系统需要单独的文本预处理管线来处理 "$5.2M"、"(212) 555-0142 ext. 402"、"4:45 PM on Wed, Apr 3, 2024" 这类复杂表达。Supertonic 从 v2 就内置了文本归一化，v3 继续沿用——不需要额外的预处理模块，直接传原始文本就能正确朗读金融数字、电话号码、时间和日期格式。对实际产品来说，少一个预处理步骤意味着少一个出错点。

Voice Builder：用你自己的声音训练

Supertone 最近还上线了 Voice Builder 工具，开发者可以用自己的录音训练定制化的端侧 TTS 模型。这对需要品牌语音或有个性化需求的应用来说是刚需——云端 TTS 都有类似功能，但端侧方案此前几乎没有。

对谁有用

无障碍工具开发者：屏幕朗读器、助听应用需要离线、低延迟的 TTS
移动应用：导航、健身、教育类 App 想加语音但不想走云端，节省带宽和隐私成本
浏览器插件：onnxruntime-web 让 Supertonic 可以在浏览器里直接跑，不需要后端
IoT 和嵌入式：智能家居、车载系统、可穿戴设备的语音交互

需要冷静看的几点

音质上限：99M 参数意味着表现力和音色丰富度比不了 0.7B～2B 级模型（如 F5-TTS、CosyVoice），更比不了 ElevenLabs 等商业方案。端侧追求的是"够用"，不是"惊艳"
31 语言质量不均：英语和韩语是主力语言，质量最好；新增语言中部分仍属"可用"级别，与母语者水平有差距
Voice Builder 的质量取决于输入：录音环境、时长、清晰度直接影响克隆效果
v3 的 GitHub Release 页面目前只展示了 v2.0.0，v3 模型主要通过 HuggingFace（Supertone/supertonic-3）分发，SDK 更新节奏和文档完善度还需关注

---

*来源：[MarkTechPost 报道](https://www.marktechpost.com/2026/05/15/supertone-releases-supertonic-v3-on-device-text-to-speech-model-with-31-language-support-fewer-reading-failures-and-expression-tags/)、[Supertone GitHub](https://github.com/supertone-inc/supertonic)、[HuggingFace 模型页](https://huggingface.co/Supertone/supertonic-3)，基于 MarkTechPost 转述官方发布整理*

参考来源

https://www.marktechpost.com/2026/05/15/supertone-releases-supertonic-v3-on-device-text-to-speech-model-with-31-language-support-fewer-reading-failures-and-expression-tags/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。