美团发布 LongCat-Next:全球首个「视听同源」原生多模态大模型,已开源

分类: 语音模型 |发布于: 4/3/2026 |最后更新: 4/3/2026
美团发布 LongCat-Next:全球首个「视听同源」原生多模态大模型,已开源

美团发布 LongCat-Next:全球首个「视听同源」原生多模态大模型,已开源

AI 第一次真正用自己的"原生语言"同时理解和生成文字、图片、语音。

多模态
语音AI
TTS
开源模型

一句话看懂

2026 年 4 月 3 日,美团 MiTi 团队发布 LongCat-Next 原生多模态大模型。这个模型不做"语言模型+插件"的拼接,而是把图片、语音、文字全都变成同一种离散 Token 来处理——AI 第一次真正"原生"地同时具备看和听的能力。模型已开源。

发生了什么

美团旗下 MiTi 团队正式上线了 LongCat-Next,并同步开源模型和配套的 dNaViT 视觉 tokenizer。

和市面上绝大多数多模态模型不同,LongCat-Next 没有采用"拿一个语言大模型当核心、再外挂视觉编码器/语音编码器"的行业常见拼法。它从头设计了一套叫 DiNA(Discrete Native Autoregressive)的架构,把所有模态——文本、图像、语音——统一成同一套离散 Token,用同一组参数、同一个注意力机制、同一个损失函数来训练。

用最直白的话说:对这个模型而言,读文字、看图片、听语音,用的是同一种"语言"。

为什么这条值得你关注

1. 语音和视觉第一次在底层统一

过去的"全模态"模型,本质上是各模态有各自的编码路径,最终在一个高层拼接。LongCat-Next 做的是把模态差异在输入阶段就消掉——视觉和语音都先被 tokenizer 变成离散 Token 序列,然后和文字一视同仁地丢进同一个自回归语言模型。

这带来一个直接优势:理解和生成在同一个数学框架下自然对称。预测文字 Token 是"理解",预测图像 Token 就是"生成"——不需要额外搭两套管线。

2. 语音能力是重点

LongCat-Next 在语音方向有两个亮点:

  • 低延迟并行的文本和语音生成——可以同时输出语音和对应文字,这对实时语音对话助手、智能客服等场景很实用
  • 可定制语音克隆——用户可以提供少量语音样本,模型能"学会"那个声音并在生成时使用

后者正是近一两年 TTS 领域最热的方向(参考 ElevenLabs、Fish Speech 等),但 LongCat-Next 的差异化在于:语音克隆不是独立模块,而是和多模态原生建模天然融合。

3. 视觉压缩效率惊人

模型使用的 dNaViT 视觉 tokenizer 支持任意分辨率输入,通过 8 层残差矢量量化能达到最高 28 倍的像素空间压缩。处理高分辨率文档(比如金融报表、密集文本图片)时不容易丢失细节。

在 OmniDocBench 密集文本测试上,LongCat-Next 超过了 Qwen3-Omni(同类开源全模态模型),甚至超过了纯视觉专精的 Qwen3-VL。

实际表现如何

测试项成绩对比参考
MathVista(视觉推理)83.1行业领先
C-Eval(中文综合理解)86.80领先级语言能力
OmniDocBench 密集文本超 Qwen3-VL视觉细节理解胜出

这些不是"SOTA 刷榜"级别的碾压,但考虑这是一个"一套参数通吃所有模态"的方案(而不是针对每个任务微调专属模型),表现是有说服力的。

对开发者意味着什么

  1. 已开源:LongCat-Next 和 dNaViT tokenizer 都已公开,开发者可以直接拉模型
  2. 规模适中:虽然官方未公布具体参数规模,但在 benchmark 上"紧凑型"的定位暗示它不会是 70B 以上的巨型模型——部署门槛相对可控
  3. 语音原生意味着什么:如果你在建语音交互产品(客服、语音助手、车载等),可以考虑用同一套模型同时处理"听懂"和"说出",省去拼装多个模型的复杂度

需要注意的限制

  • 模型刚发布,社区验证还需要时间,benchmark 成绩≠所有场景都好用
  • 开源初期的工具链、文档、微调教程可能还不完善
  • "统一架构"意味着各模态之间可能存在 trade-off——通用性强于专精弱,这在统一多模态路线中是常见取舍
  • 语音克隆的可用性和效果需要实际验证,尤其是对中文方言和小语种的支持

总结

LongCat-Next 不是"又一个全模态模型",它在尝试回答一个更根本的问题:如果 AI 天生就会看、会听、会读,还需要为每个模态单独建通道吗?美团给了一个开源的实践案例,值得做语音/多模态方向的人认真看看。

本文信息基于 AIBase 等公开报道整理,以 LongCat-Next 发布页面信息为主要依据。

来源:AIBase — Meituan Launches LongCat-Next