首页文章详情

美团LongCat-Next:把图像、声音、文字都变成Token,然后呢?

机器之心2026-04-02 12:40
一款离散原生自回归多模态大模型。

近日,美团发布了一项颇具分量的多模态研究成果 ——LongCat-Next

这是一款离散原生自回归多模态大模型,基于 LongCat-Flash-Lite MoE 架构构建,总参数量达 68.5B,激活参数仅 3B,能够在统一框架下同时处理文本、图像与音频三种模态。

该模型的出现,直接挑战了多模态领域长期存在的一个认知:将视觉信息离散化为 Token 会导致严重的细节丢失,在 OCR、复杂图表等细粒度理解任务上天然弱于连续特征模型。

LongCat-Next 是目前首个在纯离散框架下,将上述细粒度视觉理解能力推至与专用连续模型相当水平的统一多模态模型,与同等参数量专用视觉模型 Qwen3-VL-A3B 相比毫不逊色。

在图像生成方面,其长文本理解与文字渲染能力相较同类统一模型优势显著,整体生成质量可与专用文生图模型 Flux-dev 相抗衡。

在音频方面,语音识别与理解能力超越了 Gemini 3.1 Flash-Lite preview、MiMo-Audio 等同量级模型。

LongCat-Next 还破解了视觉理解与生成之间的优化冲突。

论文实验表明,在同等 token 预算下,理解与生成的联合训练不仅没有相互拖累,理解任务的训练信号反而对生成质量有正向促进,这一结论与多数统一模型的实际经验相悖。

当所有模态都以离散 token 的形式在同一嵌入空间中共同训练后,模型内部自发涌现出一种跨模态的语义交融现象,视觉 token 与文本 token 在表示空间中形成交织分布。

论文地址:https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf

GitHub:https://github.com/meituan-longcat/LongCat-Next

HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Next

blog:https://longcat.chat/longcat-next/intro

下面,我们通过几个具体 case 直观感受下它的能力。

先睹为快,文图音三模态初体验

先来试下它的视觉理解能力

我们上传一张爱乐之城配色的插花图片,让 LongCat-Next 识别其中的植物,并介绍各自特征。

提示词:图片中的花束包含哪几种植物,分别有什么特征?

模型准确辨别出黄色多头玫瑰、紫色洋桔梗、鼠尾草类香草及配叶植物,并对各自颜色、形态给出较为细致描述,还主动补充花束整体配色风格的分析。

我们又以三座风格各异的地标建筑为素材,考察模型对国内城市地标的图像识别能力。

提示词:这三个地方分别是哪里?

LongCat-Next 准确识别出北京「望京之眼」、广州中银大厦及南京青奥中心三处建筑,并对每座地标建筑的背景信息有所掌握。

比如提到广州中银大厦的网络外号「蟑螂大厦」及其独特造型,以及南京青奥中心由扎哈・哈迪德设计等细节。

下面这道图形推理题除了考察模型的图像理解能力外,还涉及到抽象规律的归纳。

提示词:Which option should be chosen for this question?

LongCat-Next 抓住其中门道,每幅图形均由外框与内部黑点两个要素构成,并通过多组数据横向比对,得出「外框边数 - 黑点个数 = 2」这一隐藏规律,最终锁定答案 B。

再看看图像生成能力

LongCat-Next 生成的日出时分高山湖泊,无论构图还是光影过渡,已接近专业风光摄影的质感。

prompt: A crystal clear mountain lake reflecting snow-capped peaks at sunrise. Still water, mirror-like reflection, pink and gold sky, pine trees along the shore.

下面这个 case 主要考察文字渲染能力。生成的马克杯产品图中,文字没有变形或乱码,整体呈现极简风格。

prompt: A white mug on a wooden table with \"LongCat-Next\" printed on it in clean font. Simple background, morning light from a window, minimalist product photography.

LongCat-Next 生成的圣托里尼,色彩表现是最大亮点,蓝顶白墙、三角梅、落日构成强烈且协调的撞色对比,很有氛围感。

prompt: Santorini white buildings with blue domes overlooking the Aegean sea at sunset. Warm golden light, bougainvillea flowers, calm ocean, iconic Greek island view.

LongCat-Next 还支持任意分辨率输出,即使是极端长宽比构图需求,它同样能稳定生成。

视觉之外,LongCat-Next 同样将音频纳入了统一的离散自回归框架。

音频理解能力能像处理文本一样,对声音信号做出准确、连贯的响应,涵盖语音内容识别与复杂场景语义理解等。

比如用四川话问它一道经典逻辑谜题,LongCat-Next 没有出现识别偏差或语义丢失,四川话的语音信号被准确转化为可推理的语义内容,并顺畅进入后续逻辑分析流程。

这在一定程度上说明,LongCat-Next 的音频离散化表示具备相当的鲁棒性,方言、口音等声学变体并不会成为理解链路上的断点。

给它一段环境录音,它从持续、有节奏的「咔哒」声与汽笛声中,准确判断出录制地点为火车站、地铁站或者铁路轨道附近。

由此可见,LongCat-Next 可以综合多个声学线索完成场景级语义推断。

它还能敏锐感知到话里话外的情绪。比如一段男声音频中,LongCat-Next 不仅听懂了字面内容,还从提高的音量与急促的语速中,判断出说话者情绪激动、带有明显怒意。

除了「听懂」音频,LongCat-Next 还具备语音合成与声音克隆能力

提供一段带有浓重广味的普通话作为参考音频,让它在保留说话人音色特征的同时,合成全新的目标内容。

合成音频还原了说话人的嗓音质感,那股辨识度极高的粤腔普通话韵味也被完整保留。

切换到英文场景,同样给出参考音频,要求模型克隆音色并复述指定内容。

LongCat-Next 准确捕捉到说话者的音色特征与口音习惯,输出的合成语音在听感上与原声高度贴近,目标内容的表达也清晰准确。

当「万物」都变成 Token

模型开始真正统一世界

今天的大模型,在核心建模范式上,仍以「预测下一个 token」为基础。但问题在于,这个 token,长期只属于语言。LongCat-Next 将这一理念延伸至多模态领域,提出了离散原生自回归(DiNA)框架

在该框架下,图像和音频等连续信号被转化为与文本共享表示空间的离散 token。在统一 token 表示下,大幅减少了为不同模态设计专用架构的需求。视觉理解与生成、音频处理等任务,在核心建模上被统一为自回归预测过程。

通过成对的 tokenizer,将多模态能力扩展到一种类似语言建模的原生框架之中。

如何把高维视听信号无损变成 Token 并还原?

首先的问题是,图像真的能变成 token 吗?

语言天然是离散的,但视觉不是。一张图像,是高维、连续、信息密度极高的信号,一旦压缩成有限 token,很容易发生语义丢失(看不懂)、 细节丢失(画不出来)。

LongCat-Next 把这个问题抽象成一个核心原则:语义完备性。也就是说,token 化之后,模型基于 token 做出的判断,应尽可能接近直接基于原始图像的判断。

为了将高维的视觉信号转化为离散 token 且尽量减少信息损失,LongCat-Next 设计了名为dNaViT(Discrete Native Resolution Vision Transformer)的视觉 Tokenizer 。

该 Tokenizer 的核心包含三个关键部分:

SAE(语义对齐编码器):模型采用经过大规模图文对齐训练的视觉编码器作为预量化特征的基础。这类编码器不仅能够捕获高层语义概念,同时也保留了细粒度的视觉属性,为后续离散建模提供语义基础。

RVQ 压缩(残差向量量化):为了将连续特征映射到有限的离散代码本中,模型引入多层级联的 RVQ 机制。它通过逐层量化残差误差的方式不断逼近原始表示,从而在压缩率与信息保真之间取得更好的平衡。

dNaViT 原生分辨率:传统视觉模型通常依赖固定分辨率输入,这在缩放或裁剪过程中不可避免地带来信息损失。dNaViT 则直接在原生分辨率下处理任意长宽比图像,将视觉信号转化为变长 token 序列,从而最大程度保留细节信息。

在将图像转换为 token 的过程中,研究人员观察到一个内在的信息保留现象:即使视觉编码器没有接受像素级重建训练,只要其结构中包含残差连接,就会自然保留一条低层信号传播路径。

换句话说,残差,就是保住珍贵像素细节的「保鲜通道」

在这种结构下,浅层的像素级与结构细节可以通过恒等映射直接传递到深层,不会被高层语义完全覆盖。这也意味着,在离散化之前,模型内部已经隐式保留了部分用于图像重建的底层信息。

基于不同冻结视觉编码器的视觉重建,使用轻量级像素解码器训练。结果表明,残差连接固有地保留了用于低级信号传播的潜在路径。

那么,在生成阶段,模型如何将离散 token 重新还原为图像?

首先,这些离散代码嵌入会被送入一个基于视觉 Transformer(ViT)的像素解码器中,用于恢复图像的空间布局与对象结构等基础内容。随后,模型引入一个基于流匹配训练的图像细化器,在结构结果之上进一步补充纹理与高频细节,最终生成高质量图像。

可以理解为:第一阶段负责「还原结构」,第二阶段负责「提升观感」。

dNaViT 的 tokenizer 与 de-tokenizer 训练流程:通过残差向量量化(RVQ)将图像编码为离散 token,并通过像素解码器在任意分辨率下将其解码回图像空间。

声音同样被纳入统一的离散建模体系中。模型首先利用Whisper 编码器提取音频的语义与副语言特征(如语气、情感等),随后通过下采样与 RVQ 压缩为离散音频 token。

在解码端,模型先恢复粗略的梅尔频谱,再通过基于流匹配的模型进行细化,从而显著提升语音合成的声学保真度与音质表现。

通过上述设计,LongCat-Next 最终证实了一个重要的观点:信息的丰富度并不必然依赖于连续的空间

团队在后续的评测中,用一系列的理解任务指标直接证明了这一点:即使是一张包含密集图表、海量文字的极其复杂的图像(例如在 OmniDocBench 等重度文档问答任务中),在被强行压缩成有限的离散 token 后,依然能够精准回答关于该图像的所有 QA、Caption 以及逻辑推理任务 。

这意味着,在跨越模态的转换中,图像的核心信息并没有消亡。这堆看似有限且抽象的离散 ID,实质上已经成为了高维、连续视觉信号的一种极度紧凑且语义完备的等价表示 。它们不仅成功锁住了视觉世界的骨相与细节,更变成了语言模型能够毫无障碍、直接阅读的「通用母语」。

LongCat-Next 在复杂视觉理解任务中的表现。即使面对排版密集的报纸、复杂的几何图表与逻辑推理题,转化为离散 token 后的模型依然能够精准提取信息并进行深度逻辑推理,证明了该离散表示的语义完备性。

另外,对比近期的一些架构演进,「残差机制」在不同场景下呈现出截然不同的作用。

在 LongCat 的视觉编码阶段,残差更像是一条「保留通道」。由于网络相对较浅,且目标是尽可能无损地保留原始像素信息,残差的恒等映射特性能够有效防止底层细节被高层语义覆盖。

而在 Kimi 团队最近大火的 Attention Residuals 工作中,当语言模型深度达到上百层时,传统残差累加反而会演变为「信息稀释」。早期层信息在传播中逐渐衰减,同时隐状态不断扩张,带来稳定性问题。因此,该工作引入注意力机制对残差信息进行选择性传递。

LLM 的「大脑」如何处理信息?

在 DiNA 框架下,所有输入(无论是文本、图像还是语音)在进入模型之前,都会被转换为统一格式的离散 token。随后,它们被送入同一个解码器架构中,由一个模态无关的混合专家网络(Modality-Agnostic MoE)统一处理

这意味着,传统多模态模型中视觉分支、语音分支、跨模态对齐模块等常见的结构,在这里被彻底取消。主干路径被统一为:token → 共享嵌入 → 自回归建模,但在输入与输出端仍保留模态相关组件。

换句话说,大模型的「多模态能力」,不再来自结构拼接,而是来自表示统一

理解与生成并不冲突

传统的观点认为,理解和生成是两个相互竞争的目标 。但在 LongCat-Next 中,它们被统一为同一自回归预测过程中的两种表现形式。实验证明,将视觉理解与生成置于统一的自回归目标下进行联合训练,两者并未产生容量冲突

在同等 token 数量的训练下,统一模型(Unified model)的损失与纯理解模型(Pure-Und.)的差距微乎其微(仅相差 0.006) ,同时其损失甚至比纯生成模型(Pure-Gen.)还要低 0.02 。

这意味着,生成任务不会削弱理解能力,反而理解任务的引入会进一步提升生成表现。

为了保证生成语音的逻辑连贯性,模型借鉴了内部文本引导的思想,将文本作为语音生成过程的一部分进行显式建模。

串行生成:模型先生成引导性的文本片段,再生成对应音频片段。这一方式在每一步只需预测单一模态 token,有效避免模态间干扰,从而保证语义准确性。

并行生成:模型在每一步同时生成文本与音频 token,并通过延迟首个音频 token 的生成步数,实现与文本的对齐。该策略显著降低响应延迟,更适用于实时对话场景。

为了统一这两种策略,团队提出了一种基于随机延迟的训练范式:在训练过程中随机采样文本与音频的对齐延迟,使模型学习更鲁棒的跨模态对齐能力。

实验显示,在该训练方式下,并行生成在效率与语义准确度上均可达到与串行生成相当的水平。

两种具有内部语言引导的语音生成策略。 用户的输入音频被视为纯音频模态,而由 LongCat-Next(或助手)生成的输出则被视为文本引导的音频模态。为了指示模态转换并促进分段对齐,团队引入了三个特殊标记:AS(Audio Start,音频开始)、AE(Audio End,音频结束) 和 TE(Text End,文本结束),分别表示音频片段的起始和结束,以及文本片段的结束。

基础设施保障:V-Half 流水线调度

在多模态模型中,计算负载本质上是异构的 。图、音、文在 Embedding 层和特定模态损失模块(如深度 Transformer)的计算耗时存在显著差异,且会随每条样本中模态 token 分布的不同而动态波动 。传统的线性流水线并行会导致严重的级间负载不均、高昂的点对点通信开销以及大量的算力气泡 。

为解决这一系统瓶颈,团队采用了基于V-Half的流水线调度策略 。该策略通过「V 型调度」,将计算流水线的第一个阶段(Embedding 层)和最后一个阶段(模态特定的损失模块)「折叠」并共置于同一个物理设备上 。

这种物理层面的共置设计,不仅通过吸收动态计算开销有效消除了流水线气泡、实现了近乎完美的负载均衡 ,还使得这两端模块之间的前向激活和反向梯度传递可以通过零拷贝的设备内内存访问完成,显著减少了跨阶段通信开销。

实验细节与未来工作

在视觉生成数据上,为避免模型陷入同质化审美(即过度偏向高频的「AI 风格」),团队引入了基于聚类的重平衡策略。通过对高密度集群进行去重,并提高稀疏长尾概念(如罕见动植物、专业仪器)的采样权重,从数据源头上保障了生成内容的多样性。

左图: 数据整理与训练流程包含三个阶段:(I)预训练:通过过滤和重新描述实现基本对齐;(II)中期训练:通过语义聚类和重平衡解决数据不平衡问题;(III)监督微调:基于高质量、遵循指令的数据,提升美学质量和文本渲染效果。右图: 图像来源的分布情况。

将多模态数据离散化为 token 的另一项技术红利,体现在强化学习阶段。离散视觉潜在空间天然可以作为动作空间,使模型能够直接套用语言模型成熟的 RL 算法(如 GRPO)来提升画图和理解能力,避免了连续空间中复杂的采样与映射过程。

在针对图像理解进行 RL 训练时,团队遭遇了严重的「熵爆炸」问题。当极少数 token 存在训练 - 推理概率失配时,微小的乱码噪声会在长序列生成中累积放大,导致输出崩溃。团队最终通过设计基于熵和概率差的「序列级过滤机制」,在梯度更新前精准丢弃包含致命错乱的样本序列,成功稳定了 RL 的训练过程。

整体来看,LongCat-Next 的后续工作,仍将围绕两个核心问题展开:一是如何在更高压缩率下维持跨模态语义完备性;二是如何在统一 token 空间中进一步提升长序列与复杂任务下的稳定性与可控性。

结语

论文在最后探讨了一个非常有趣的观点:「柏拉图表征假说」。在柏拉图的哲学理念中,现实世界的万事万物,都只是完美「理念」的影子。映射到深度学习中,文本、图像和声音,本质上也是对同一个客观现实的不同表达途径。

在传统的拼接式模型中,图、音、文往往各自为阵,在特征空间里形成割裂。但当它们被置于 DiNA 这种完全原生的离散框架下时,实验观测到了一个美妙的现象:视觉和文本 token 的特征分布自然地交织在了一起。

它们不再是需要被强行对齐的异类,而是变成了表达同一个底层概念的「世界语言」。无论是屏幕上的像素,还是麦克风里的声波,最终都在模型的高维语义空间中,化为了同一种思维的涟漪。

客观地看,目前的探索仍是一个起点。正如团队在未来工作中所指出的,当前的评估主要通过图像到文本(理解)和文本到图像(生成)等经典任务,成功验证了这种离散原生架构的可行性与语义完整性。然而,距离真正意义上的通用多模态智能仍有距离。

团队指出,未来的原生多模态系统绝对不应局限于这些传统的单一方向 。理所当然的下一步,是必须走向更复杂的「任意到任意」的交织推理 。这意味着未来的输入和输出将是文本、视觉和音频的任意组合 ,甚至涵盖长上下文的多模态交互、多轮视觉对话,以及不同模态之间动态相互制约的组合生成 。只有实现这种灵活、统一的交互,模型才能真正从「特定任务的专家」进化为「通用多模态智能」 。

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:关注AI的机器之心,36氪经授权发布。