Qwen3.5-Omni 上线:一个模型同时听、看、说、写,支持语音克隆和语义打断
Qwen3.5-Omni 上线:一个模型同时听、看、说、写
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
如果你平时用 AI 的方式是"先转文字、再问问题、再把答案读出来",那这次阿里的更新值得关注——它正在把这些步骤全部缩进一个模型里。
3 月 30 日,阿里通义 Qwen 团队发布了 Qwen3.5-Omni。这是 Qwen3-Omni(2025 年 12 月发布)的下一代全模态模型,可以同时原生接收文本、图像、音频和视频输入,并直接输出文字或实时语音。换句话说,它不再需要"语音转文字 → LLM 理解 → 文字转语音"这种拼接管线,而是用一个模型把所有事情端到端做完。
什么变了?
和上一代 Qwen3-Omni Flash 相比,这一代有三个最容易被感知到的升级:
1. 语义打断:它知道你说的"嗯嗯"不是"打断"
如果你试过跟语音 AI 对话,可能会发现一个常见的问题:你在听它说话时"嗯"了一声,它就以为是你在打断,然后停下来。Qwen3.5-Omni 现在能区分"反馈性声音"(嗯嗯、对)和"真正的打断指令"(等一下停),让对话更自然。
2. 语音克隆:用样本说话
你可以上传一段语音样本,模型会用这个声音来回应你。目前这个功能通过 API 开放。在 20 种语言的语音质量评测中,Qwen3.5-Omni Plus 的表现超过了 ElevenLabs、GPT-Audio 和 Minimax——要知道 ElevenLabs 是一家专注语音合成多年的公司。
3. 音视"氛围编程"(Vibe Coding)
你可以给模型看一段屏幕录制的视频,它能根据画面内容直接生成可运行的代码。比如录一下你想要的界面效果,模型看完就能帮你写出前端代码。这比用文字描述"我想要一个带圆角的卡片"要直观得多。
它能处理多少内容?
- 上下文窗口:256,000 token,约等于 10+ 小时的音频或 400 秒 720p 视频
- 训练数据:超过 1 亿小时的音视频数据
- 语音支持:113 种语言识别,36 种语言生成
- 模型规格:采用 MoE(混合专家)架构 + 混合注意力机制
三个版本
Qwen3.5-Omni 系列提供三档:
- Plus — 最强能力,适合复杂场景
- Flash — 平衡性能和成本
- Light — 轻量端部署
目前 API 已经可用,Ollama 上也能拉取 Qwen 3.5 系列模型。
对比表现
根据多篇技术评测交叉印证(主要基于阿里官方发布的技术报告和第三方评测整理):
- 36 项音频/音视频评测中,Qwen3.5-Omni 在 32 项上达到或超过了此前的最佳水平
- 在通用音频理解和推理方面,超过了 Google 的 Gemini 3.1 Pro
- 多语言语音稳定性超过 ElevenLabs、GPT-Audio 和 Minimax
需要注意的是,这些对比数据主要来自阿里官方发布的评测报告和模型技术博客,第三方独立评测还在陆续展开。
谁最该关注这条更新?
语音应用开发者 — 如果你在做语音助手、客服机器人、实时翻译,或者任何需要"听-想-说"闭环的产品,全模态原生管线比拼接多模态工具省延迟、降复杂度。
多语言内容创作者 — 113 种语言的语音识别覆盖面,对做多语种内容分析、播客字幕、会议记录的人来说,能省掉不少工具链。
想做"让 AI 看视频"的团队 — Vibe Coding 只是一个开始。能把屏幕录制当输入、直接出代码或解释,会改变很多自动化工作流的设计思路。
边界
- 256K 上下文在 2026 年的大模型中不算特别长(多家模型已提供 1M+ 上下文)
- 语音克隆功能目前仅限于 API 调用,终端用户暂时无法直接在聊天产品中使用
- 目前主要依据为官方技术博客和多家媒体交叉转述,更多独立第三方评测有待跟进
一句话总结
Qwen3.5-Omni 不是"又一个多模态模型",而是一个把听、看、说、写在同一个推理调用里完成的模型。如果你在做的是语音交互、视频理解或多语言内容处理,它值得放进你的候选名单。
---
*基于多家媒体报道交叉核验整理,主要来源:Decrypt、Apidog、MarkTechPost 及 Qwen 官方博客。*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。