美团发布 LongCat-Next:全球首个「视听同源」原生多模态大模型,已开源
美团发布 LongCat-Next:全球首个「视听同源」原生多模态大模型,已开源
AI 第一次真正用自己的"原生语言"同时理解和生成文字、图片、语音。
一句话看懂
2026 年 4 月 3 日,美团 MiTi 团队发布 LongCat-Next 原生多模态大模型。这个模型不做"语言模型+插件"的拼接,而是把图片、语音、文字全都变成同一种离散 Token 来处理——AI 第一次真正"原生"地同时具备看和听的能力。模型已开源。
发生了什么
美团旗下 MiTi 团队正式上线了 LongCat-Next,并同步开源模型和配套的 dNaViT 视觉 tokenizer。
和市面上绝大多数多模态模型不同,LongCat-Next 没有采用"拿一个语言大模型当核心、再外挂视觉编码器/语音编码器"的行业常见拼法。它从头设计了一套叫 DiNA(Discrete Native Autoregressive)的架构,把所有模态——文本、图像、语音——统一成同一套离散 Token,用同一组参数、同一个注意力机制、同一个损失函数来训练。
用最直白的话说:对这个模型而言,读文字、看图片、听语音,用的是同一种"语言"。
为什么这条值得你关注
1. 语音和视觉第一次在底层统一
过去的"全模态"模型,本质上是各模态有各自的编码路径,最终在一个高层拼接。LongCat-Next 做的是把模态差异在输入阶段就消掉——视觉和语音都先被 tokenizer 变成离散 Token 序列,然后和文字一视同仁地丢进同一个自回归语言模型。
这带来一个直接优势:理解和生成在同一个数学框架下自然对称。预测文字 Token 是"理解",预测图像 Token 就是"生成"——不需要额外搭两套管线。
2. 语音能力是重点
LongCat-Next 在语音方向有两个亮点:
- 低延迟并行的文本和语音生成——可以同时输出语音和对应文字,这对实时语音对话助手、智能客服等场景很实用
- 可定制语音克隆——用户可以提供少量语音样本,模型能"学会"那个声音并在生成时使用
后者正是近一两年 TTS 领域最热的方向(参考 ElevenLabs、Fish Speech 等),但 LongCat-Next 的差异化在于:语音克隆不是独立模块,而是和多模态原生建模天然融合。
3. 视觉压缩效率惊人
模型使用的 dNaViT 视觉 tokenizer 支持任意分辨率输入,通过 8 层残差矢量量化能达到最高 28 倍的像素空间压缩。处理高分辨率文档(比如金融报表、密集文本图片)时不容易丢失细节。
在 OmniDocBench 密集文本测试上,LongCat-Next 超过了 Qwen3-Omni(同类开源全模态模型),甚至超过了纯视觉专精的 Qwen3-VL。
实际表现如何
| 测试项 | 成绩 | 对比参考 |
|---|---|---|
| MathVista(视觉推理) | 83.1 | 行业领先 |
| C-Eval(中文综合理解) | 86.80 | 领先级语言能力 |
| OmniDocBench 密集文本 | 超 Qwen3-VL | 视觉细节理解胜出 |
这些不是"SOTA 刷榜"级别的碾压,但考虑这是一个"一套参数通吃所有模态"的方案(而不是针对每个任务微调专属模型),表现是有说服力的。
对开发者意味着什么
- 已开源:LongCat-Next 和 dNaViT tokenizer 都已公开,开发者可以直接拉模型
- 规模适中:虽然官方未公布具体参数规模,但在 benchmark 上"紧凑型"的定位暗示它不会是 70B 以上的巨型模型——部署门槛相对可控
- 语音原生意味着什么:如果你在建语音交互产品(客服、语音助手、车载等),可以考虑用同一套模型同时处理"听懂"和"说出",省去拼装多个模型的复杂度
需要注意的限制
- 模型刚发布,社区验证还需要时间,benchmark 成绩≠所有场景都好用
- 开源初期的工具链、文档、微调教程可能还不完善
- "统一架构"意味着各模态之间可能存在 trade-off——通用性强于专精弱,这在统一多模态路线中是常见取舍
- 语音克隆的可用性和效果需要实际验证,尤其是对中文方言和小语种的支持
总结
LongCat-Next 不是"又一个全模态模型",它在尝试回答一个更根本的问题:如果 AI 天生就会看、会听、会读,还需要为每个模态单独建通道吗?美团给了一个开源的实践案例,值得做语音/多模态方向的人认真看看。
本文信息基于 AIBase 等公开报道整理,以 LongCat-Next 发布页面信息为主要依据。