美团发布 LongCat-Next：全球首个「视听同源」原生多模态大模型，已开源

分类: 语音模型 |发布于: 4/3/2026 |最后更新: 4/3/2026

AI 第一次真正用自己的"原生语言"同时理解和生成文字、图片、语音。

多模态

语音AI

TTS

开源模型

一句话看懂

2026 年 4 月 3 日，美团 MiTi 团队发布 LongCat-Next 原生多模态大模型。这个模型不做"语言模型+插件"的拼接，而是把图片、语音、文字全都变成同一种离散 Token 来处理——AI 第一次真正"原生"地同时具备看和听的能力。模型已开源。

发生了什么

美团旗下 MiTi 团队正式上线了 LongCat-Next，并同步开源模型和配套的 dNaViT 视觉 tokenizer。

和市面上绝大多数多模态模型不同，LongCat-Next 没有采用"拿一个语言大模型当核心、再外挂视觉编码器/语音编码器"的行业常见拼法。它从头设计了一套叫 DiNA（Discrete Native Autoregressive）的架构，把所有模态——文本、图像、语音——统一成同一套离散 Token，用同一组参数、同一个注意力机制、同一个损失函数来训练。

用最直白的话说：对这个模型而言，读文字、看图片、听语音，用的是同一种"语言"。

为什么这条值得你关注

1. 语音和视觉第一次在底层统一

过去的"全模态"模型，本质上是各模态有各自的编码路径，最终在一个高层拼接。LongCat-Next 做的是把模态差异在输入阶段就消掉——视觉和语音都先被 tokenizer 变成离散 Token 序列，然后和文字一视同仁地丢进同一个自回归语言模型。

这带来一个直接优势：理解和生成在同一个数学框架下自然对称。预测文字 Token 是"理解"，预测图像 Token 就是"生成"——不需要额外搭两套管线。

2. 语音能力是重点

LongCat-Next 在语音方向有两个亮点：

低延迟并行的文本和语音生成——可以同时输出语音和对应文字，这对实时语音对话助手、智能客服等场景很实用
可定制语音克隆——用户可以提供少量语音样本，模型能"学会"那个声音并在生成时使用

后者正是近一两年 TTS 领域最热的方向（参考 ElevenLabs、Fish Speech 等），但 LongCat-Next 的差异化在于：语音克隆不是独立模块，而是和多模态原生建模天然融合。

3. 视觉压缩效率惊人

模型使用的 dNaViT 视觉 tokenizer 支持任意分辨率输入，通过 8 层残差矢量量化能达到最高 28 倍的像素空间压缩。处理高分辨率文档（比如金融报表、密集文本图片）时不容易丢失细节。

在 OmniDocBench 密集文本测试上，LongCat-Next 超过了 Qwen3-Omni（同类开源全模态模型），甚至超过了纯视觉专精的 Qwen3-VL。

实际表现如何

测试项	成绩	对比参考
MathVista（视觉推理）	83.1	行业领先
C-Eval（中文综合理解）	86.80	领先级语言能力
OmniDocBench 密集文本	超 Qwen3-VL	视觉细节理解胜出

这些不是"SOTA 刷榜"级别的碾压，但考虑这是一个"一套参数通吃所有模态"的方案（而不是针对每个任务微调专属模型），表现是有说服力的。

对开发者意味着什么

已开源：LongCat-Next 和 dNaViT tokenizer 都已公开，开发者可以直接拉模型
规模适中：虽然官方未公布具体参数规模，但在 benchmark 上"紧凑型"的定位暗示它不会是 70B 以上的巨型模型——部署门槛相对可控
语音原生意味着什么：如果你在建语音交互产品（客服、语音助手、车载等），可以考虑用同一套模型同时处理"听懂"和"说出"，省去拼装多个模型的复杂度

需要注意的限制

模型刚发布，社区验证还需要时间，benchmark 成绩≠所有场景都好用
开源初期的工具链、文档、微调教程可能还不完善
"统一架构"意味着各模态之间可能存在 trade-off——通用性强于专精弱，这在统一多模态路线中是常见取舍
语音克隆的可用性和效果需要实际验证，尤其是对中文方言和小语种的支持

总结

LongCat-Next 不是"又一个全模态模型"，它在尝试回答一个更根本的问题：如果 AI 天生就会看、会听、会读，还需要为每个模态单独建通道吗？美团给了一个开源的实践案例，值得做语音/多模态方向的人认真看看。

本文信息基于 AIBase 等公开报道整理，以 LongCat-Next 发布页面信息为主要依据。

来源：AIBase — Meituan Launches LongCat-Next