Supertone 发布 Supertonic v3:99M 参数端侧 TTS,31 语言、CPU 直跑、2 步推理
Supertone 发布 Supertonic v3:99M 参数端侧 TTS,31 语言、CPU 直跑、2 步推理
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
5 月 15 日,韩国语音 AI 公司 Supertone 发布了 Supertonic v3——第三代端侧文本转语音模型。新版本把语言支持从 5 种一口气拉到 31 种,参数量只有 99M,磁盘占用 404MB,不需要 GPU,纯 CPU 就能跑,两步推理即可出声。对想在手机、浏览器、IoT 设备上做本地语音合成的开发者来说,这是一个值得认真看的方案。
从 v2 到 v3:三件关键变化
语言覆盖从 5 到 31。 v2 只支持英语、韩语、西班牙语、葡萄牙语和法语。v3 新增了日语、阿拉伯语、德语、俄语、意大利语、荷兰语、波兰语、越南语等 26 种语言,外加一个 na 兜底模式——遇到未识别语言也能尝试合成,不会直接报错。
表达标签。 v3 支持在文本里嵌入 <laugh>、<breath>、<sigh> 等标签,让合成语音带上笑声、呼吸声和叹气声。这听起来是小事,但对语音助手和无障碍朗读工具来说,有没有这些"气口"直接决定了听起来像人还是像机器。不需要额外的表现力模型,一个标签就行。
读取准确率提升。 v3 减少了 v2 中偶发的"重复"和"跳过"错误——即模型在朗读时突然把某个词再说一遍或者跳过不读。这类问题在大模型上偶尔也会出现,但在端侧场景里更致命,因为用户没有耐心等第二次合成。
技术架构:为什么 99M 参数就能跑
Supertonic 的核心思路是"小而快",不是"大而全"。架构延续了前代的三个模块:
- 语音自编码器:把波形编码为连续隐空间表示
- Flow-matching 文本到隐空间模块:把文本映射到音频特征,只需 2 步推理(对比扩散模型动辄几十步)
- 时长预测器:控制自然节奏
v3 在此基础上加了两个关键改进:LARoPE(长度感知旋转位置编码)提升文本-语音对齐质量,以及 Self-Purifying Flow Matching 训练技术,让模型在含噪声标签的训练数据中仍然保持稳定。
整个模型不到 0.7B~2B 级开源 TTS 系统参数量的一半,换来的是更小的下载体积、更快的启动时间和更低的内存占用。
实际跑起来有多快
Supertone 给出了一个很有说服力的测试场景:在 Onyx Boox Go 6(一款墨水屏电纸书)上,飞行模式下,Supertonic v3 的平均实时率(RTF)是 0.3x——意味着合成 1 秒音频只需要 0.3 秒。在电纸书上都能跑,手机和笔记本上更没问题。
所有推理在设备端完成,首次下载模型资源后不需要网络连接。SDK 支持 Python、Flutter(含 macOS)、.NET 9、Go,Web 端用 onnxruntime-web 实现纯客户端执行。
内置文本归一化:一个被低估的亮点
大部分 TTS 系统需要单独的文本预处理管线来处理 "$5.2M"、"(212) 555-0142 ext. 402"、"4:45 PM on Wed, Apr 3, 2024" 这类复杂表达。Supertonic 从 v2 就内置了文本归一化,v3 继续沿用——不需要额外的预处理模块,直接传原始文本就能正确朗读金融数字、电话号码、时间和日期格式。对实际产品来说,少一个预处理步骤意味着少一个出错点。
Voice Builder:用你自己的声音训练
Supertone 最近还上线了 Voice Builder 工具,开发者可以用自己的录音训练定制化的端侧 TTS 模型。这对需要品牌语音或有个性化需求的应用来说是刚需——云端 TTS 都有类似功能,但端侧方案此前几乎没有。
对谁有用
- 无障碍工具开发者:屏幕朗读器、助听应用需要离线、低延迟的 TTS
- 移动应用:导航、健身、教育类 App 想加语音但不想走云端,节省带宽和隐私成本
- 浏览器插件:onnxruntime-web 让 Supertonic 可以在浏览器里直接跑,不需要后端
- IoT 和嵌入式:智能家居、车载系统、可穿戴设备的语音交互
需要冷静看的几点
- 音质上限:99M 参数意味着表现力和音色丰富度比不了 0.7B~2B 级模型(如 F5-TTS、CosyVoice),更比不了 ElevenLabs 等商业方案。端侧追求的是"够用",不是"惊艳"
- 31 语言质量不均:英语和韩语是主力语言,质量最好;新增语言中部分仍属"可用"级别,与母语者水平有差距
- Voice Builder 的质量取决于输入:录音环境、时长、清晰度直接影响克隆效果
- v3 的 GitHub Release 页面目前只展示了 v2.0.0,v3 模型主要通过 HuggingFace(Supertone/supertonic-3)分发,SDK 更新节奏和文档完善度还需关注
---
*来源:[MarkTechPost 报道](https://www.marktechpost.com/2026/05/15/supertone-releases-supertonic-v3-on-device-text-to-speech-model-with-31-language-support-fewer-reading-failures-and-expression-tags/)、[Supertone GitHub](https://github.com/supertone-inc/supertonic)、[HuggingFace 模型页](https://huggingface.co/Supertone/supertonic-3),基于 MarkTechPost 转述官方发布整理*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。