小米 MiMo-V2.5 语音全家桶发布：TTS 三件套 + 开源 ASR，方言歌词全拿下

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

4 月 24 日，小米正式发布 MiMo-V2.5 系列语音模型，一口气覆盖了"让 AI 说话"和"让 AI 听话"两个方向：合成端推出三个 TTS 模型，识别端则开源了一个 ASR 模型。这不是零散的单点更新——小米明确把它定位为"面向 Agent 时代的全链路语音方案"，从语音输入到语音输出，开发者可以拿到一套可组合的完整基础设施。

TTS 三件套：三种模型，三种玩法

MiMo-V2.5-TTS 系列包含三个模型，共享同一套风格指令和音频标签体系，但面向不同场景：

MiMo-V2.5-TTS（基础版）：预置了一批高质量音色，支持对语速、情感、语气做精细调节。适合需要"拿来就用"的场景——客服语音、有声读物、导航播报等。

MiMo-V2.5-TTS-VoiceDesign：只需提供一句短文本，就能生成一个全新的声音音色。如果你对预置音色都不满意，或者需要给一个虚拟角色"创世配音"，这个模型可以直接从零捏出一个声音来。

MiMo-V2.5-TTS-VoiceClone：给少量声音样本，克隆出目标音色，而且在切换不同风格和指令时仍能保持声音的一致性。应用场景很明显——给特定 IP 角色配音、复刻品牌声等。

三个模型最大的亮点是自然语言风格指令：你不需要调什么"情感参数=0.7"之类的数值，而是直接用文字告诉模型"用温柔的语气，像在哄小朋友一样念这段话"，模型就能理解并执行。对于游戏角色、音频剧等复杂场景，还支持角色脚本式输入——角色的性格特征、场景描述、对话内容可以分层独立调整，互不干扰。

此外还有一个实用功能：内联音频标签。你可以在同一句话的中间插入标签，控制特定词的情感或节奏，比如让某个关键词突然加重语气。中英文都支持。

ASR：开源语音识别，而且不止普通话

MiMo-V2.5-ASR 是这次发布中分量最重的部分——小米选择了开源权重和代码，开发者可以直接拿来自部署或二次定制。

它的核心能力覆盖了目前市面上多数 ASR 模型不太愿意碰的"硬场景"：

方言识别：原生支持吴语、粤语、闽南语、四川话等，不是靠统一模型硬凑，而是在训练中就覆盖了这些方言。
中英混说：说话人随意在中英文之间切换，不需要手动设置语言标签，模型自动判断。
歌词识别：即使有伴奏和人声混在一起，也能高精度转写中英文歌词。这个能力在现有开源 ASR 中非常少见。
多说话人：会议场景中多人同时说话、声音重叠，仍能做一定程度的分离和转写。
噪声和远场：嘈杂环境、远距离拾音也能保持较高准确率。
原生标点：根据韵律和语义直接生成标点，输出文本基本可用，不用再做后处理。

小米公开了 benchmark 对比数据，MiMo-V2.5-ASR 在中文通用识别、中英 code-switching、歌词识别等多个场景达到或接近 SOTA，超过了 Qwen3-ASR-1.7B、FunASR-1.5、Whisper-large-v3 等主流模型，部分指标也优于字节的 Seed-ASR 2.0 和 Google 的 Gemini-3.1-Pro。

对谁有用？

做 AI 语音助手/Agent 的开发者：TTS + ASR 全链路都有了，不用自己从不同厂商拼凑。
需要方言或歌词等特殊场景的团队：市面上能开箱即用处理吴语、粤语、歌词的 ASR 选择非常有限。
想自部署语音能力的企业：ASR 开源权重直接可用，TTS 限时免费开放，部署成本很低。

需要注意什么？

TTS 模型目前通过小米 MiMo 开放平台提供，限时免费，后续收费政策未公布。
VoiceClone 涉及声音权益问题，使用时需确保有合法授权，符合当地法规。
Benchmark 数据来自小米官方，实际效果还需社区进一步验证。
本次信息主要基于多家媒体转述整理与官方页面确认，模型的实际体验和稳定性有待开发者反馈。

---

来源：

小米官方 MiMo-V2.5-ASR 页面：https://mimo.xiaomi.com/mimo-v2-5-asr
Gizmochina 报道：https://www.gizmochina.com/2026/04/24/xiaomi-introduces-mimo-v2-5-tts-and-asr-as-a-full-voice-pipeline-for-the-agent-era/
ProPakistani 报道：https://propakistani.pk/2026/04/25/xiaomis-launches-another-ai-model-to-take-on-google-and-openai/

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。