小米 MiMo-V2.5 语音全家桶发布:TTS 三件套 + 开源 ASR,方言歌词全拿下
小米 MiMo-V2.5 语音全家桶发布:TTS 三件套 + 开源 ASR,方言歌词全拿下
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
4 月 24 日,小米正式发布 MiMo-V2.5 系列语音模型,一口气覆盖了"让 AI 说话"和"让 AI 听话"两个方向:合成端推出三个 TTS 模型,识别端则开源了一个 ASR 模型。这不是零散的单点更新——小米明确把它定位为"面向 Agent 时代的全链路语音方案",从语音输入到语音输出,开发者可以拿到一套可组合的完整基础设施。
TTS 三件套:三种模型,三种玩法
MiMo-V2.5-TTS 系列包含三个模型,共享同一套风格指令和音频标签体系,但面向不同场景:
MiMo-V2.5-TTS(基础版):预置了一批高质量音色,支持对语速、情感、语气做精细调节。适合需要"拿来就用"的场景——客服语音、有声读物、导航播报等。
MiMo-V2.5-TTS-VoiceDesign:只需提供一句短文本,就能生成一个全新的声音音色。如果你对预置音色都不满意,或者需要给一个虚拟角色"创世配音",这个模型可以直接从零捏出一个声音来。
MiMo-V2.5-TTS-VoiceClone:给少量声音样本,克隆出目标音色,而且在切换不同风格和指令时仍能保持声音的一致性。应用场景很明显——给特定 IP 角色配音、复刻品牌声等。
三个模型最大的亮点是自然语言风格指令:你不需要调什么"情感参数=0.7"之类的数值,而是直接用文字告诉模型"用温柔的语气,像在哄小朋友一样念这段话",模型就能理解并执行。对于游戏角色、音频剧等复杂场景,还支持角色脚本式输入——角色的性格特征、场景描述、对话内容可以分层独立调整,互不干扰。
此外还有一个实用功能:内联音频标签。你可以在同一句话的中间插入标签,控制特定词的情感或节奏,比如让某个关键词突然加重语气。中英文都支持。
ASR:开源语音识别,而且不止普通话
MiMo-V2.5-ASR 是这次发布中分量最重的部分——小米选择了开源权重和代码,开发者可以直接拿来自部署或二次定制。
它的核心能力覆盖了目前市面上多数 ASR 模型不太愿意碰的"硬场景":
- 方言识别:原生支持吴语、粤语、闽南语、四川话等,不是靠统一模型硬凑,而是在训练中就覆盖了这些方言。
- 中英混说:说话人随意在中英文之间切换,不需要手动设置语言标签,模型自动判断。
- 歌词识别:即使有伴奏和人声混在一起,也能高精度转写中英文歌词。这个能力在现有开源 ASR 中非常少见。
- 多说话人:会议场景中多人同时说话、声音重叠,仍能做一定程度的分离和转写。
- 噪声和远场:嘈杂环境、远距离拾音也能保持较高准确率。
- 原生标点:根据韵律和语义直接生成标点,输出文本基本可用,不用再做后处理。
小米公开了 benchmark 对比数据,MiMo-V2.5-ASR 在中文通用识别、中英 code-switching、歌词识别等多个场景达到或接近 SOTA,超过了 Qwen3-ASR-1.7B、FunASR-1.5、Whisper-large-v3 等主流模型,部分指标也优于字节的 Seed-ASR 2.0 和 Google 的 Gemini-3.1-Pro。
对谁有用?
- 做 AI 语音助手/Agent 的开发者:TTS + ASR 全链路都有了,不用自己从不同厂商拼凑。
- 需要方言或歌词等特殊场景的团队:市面上能开箱即用处理吴语、粤语、歌词的 ASR 选择非常有限。
- 想自部署语音能力的企业:ASR 开源权重直接可用,TTS 限时免费开放,部署成本很低。
需要注意什么?
- TTS 模型目前通过小米 MiMo 开放平台提供,限时免费,后续收费政策未公布。
- VoiceClone 涉及声音权益问题,使用时需确保有合法授权,符合当地法规。
- Benchmark 数据来自小米官方,实际效果还需社区进一步验证。
- 本次信息主要基于多家媒体转述整理与官方页面确认,模型的实际体验和稳定性有待开发者反馈。
---
来源:
- 小米官方 MiMo-V2.5-ASR 页面:https://mimo.xiaomi.com/mimo-v2-5-asr
- Gizmochina 报道:https://www.gizmochina.com/2026/04/24/xiaomi-introduces-mimo-v2-5-tts-and-asr-as-a-full-voice-pipeline-for-the-agent-era/
- ProPakistani 报道:https://propakistani.pk/2026/04/25/xiaomis-launches-another-ai-model-to-take-on-google-and-openai/
参考来源
- https://mimo.xiaomi.com/mimo-v2-5-asr
- https://www.gizmochina.com/2026/04/24/xiaomi-introduces-mimo-v2-5-tts-and-asr-as-a-full-voice-pipeline-for-the-agent-era/
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。