Qwen3.5-Omni 上线:一个模型同时听、看、说、写,支持语音克隆和语义打断

分类: 各厂语言模型 |发布于: 4/1/2026 |最后更新: 4/1/2026
Qwen3.5-Omni 上线:一个模型同时听、看、说、写

Qwen3.5-Omni 上线:一个模型同时听、看、说、写

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

如果你平时用 AI 的方式是"先转文字、再问问题、再把答案读出来",那这次阿里的更新值得关注——它正在把这些步骤全部缩进一个模型里。

3 月 30 日,阿里通义 Qwen 团队发布了 Qwen3.5-Omni。这是 Qwen3-Omni(2025 年 12 月发布)的下一代全模态模型,可以同时原生接收文本、图像、音频和视频输入,并直接输出文字或实时语音。换句话说,它不再需要"语音转文字 → LLM 理解 → 文字转语音"这种拼接管线,而是用一个模型把所有事情端到端做完。

什么变了?

和上一代 Qwen3-Omni Flash 相比,这一代有三个最容易被感知到的升级:

1. 语义打断:它知道你说的"嗯嗯"不是"打断"

如果你试过跟语音 AI 对话,可能会发现一个常见的问题:你在听它说话时"嗯"了一声,它就以为是你在打断,然后停下来。Qwen3.5-Omni 现在能区分"反馈性声音"(嗯嗯、对)和"真正的打断指令"(等一下停),让对话更自然。

2. 语音克隆:用样本说话

你可以上传一段语音样本,模型会用这个声音来回应你。目前这个功能通过 API 开放。在 20 种语言的语音质量评测中,Qwen3.5-Omni Plus 的表现超过了 ElevenLabs、GPT-Audio 和 Minimax——要知道 ElevenLabs 是一家专注语音合成多年的公司。

3. 音视"氛围编程"(Vibe Coding)

你可以给模型看一段屏幕录制的视频,它能根据画面内容直接生成可运行的代码。比如录一下你想要的界面效果,模型看完就能帮你写出前端代码。这比用文字描述"我想要一个带圆角的卡片"要直观得多。

它能处理多少内容?

  • 上下文窗口:256,000 token,约等于 10+ 小时的音频或 400 秒 720p 视频
  • 训练数据:超过 1 亿小时的音视频数据
  • 语音支持:113 种语言识别,36 种语言生成
  • 模型规格:采用 MoE(混合专家)架构 + 混合注意力机制

三个版本

Qwen3.5-Omni 系列提供三档:

  • Plus — 最强能力,适合复杂场景
  • Flash — 平衡性能和成本
  • Light — 轻量端部署

目前 API 已经可用,Ollama 上也能拉取 Qwen 3.5 系列模型。

对比表现

根据多篇技术评测交叉印证(主要基于阿里官方发布的技术报告和第三方评测整理):

  • 36 项音频/音视频评测中,Qwen3.5-Omni 在 32 项上达到或超过了此前的最佳水平
  • 在通用音频理解和推理方面,超过了 Google 的 Gemini 3.1 Pro
  • 多语言语音稳定性超过 ElevenLabs、GPT-Audio 和 Minimax

需要注意的是,这些对比数据主要来自阿里官方发布的评测报告和模型技术博客,第三方独立评测还在陆续展开。

谁最该关注这条更新?

语音应用开发者 — 如果你在做语音助手、客服机器人、实时翻译,或者任何需要"听-想-说"闭环的产品,全模态原生管线比拼接多模态工具省延迟、降复杂度。

多语言内容创作者 — 113 种语言的语音识别覆盖面,对做多语种内容分析、播客字幕、会议记录的人来说,能省掉不少工具链。

想做"让 AI 看视频"的团队 — Vibe Coding 只是一个开始。能把屏幕录制当输入、直接出代码或解释,会改变很多自动化工作流的设计思路。

边界

  • 256K 上下文在 2026 年的大模型中不算特别长(多家模型已提供 1M+ 上下文)
  • 语音克隆功能目前仅限于 API 调用,终端用户暂时无法直接在聊天产品中使用
  • 目前主要依据为官方技术博客和多家媒体交叉转述,更多独立第三方评测有待跟进

一句话总结

Qwen3.5-Omni 不是"又一个多模态模型",而是一个把听、看、说、写在同一个推理调用里完成的模型。如果你在做的是语音交互、视频理解或多语言内容处理,它值得放进你的候选名单。

---

*基于多家媒体报道交叉核验整理,主要来源:Decrypt、Apidog、MarkTechPost 及 Qwen 官方博客。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。