预训练通往AGI之路已死?杨立昆揭示了LLM无法跨越的认知鸿沟
多年来,人工智能领域的三巨头之一、Meta首席AI科学家杨立昆(Yann LeCun)一直对主流大型语言模型(LLM)背后技术路线持怀疑态度。
杨立昆表示:自回归模型烂透了
他认为,当前主流的自回归模型,其核心任务是通过预测下一个词来生成文本,这种模式在本质上无法孕育出真正的智能——无论模型规模如何扩大,这种机制都无法实现真正的理解、推理或类人智能。
然而,他的观点长期被视为学术路线的“派系之争”,因其缺乏直接的实证支撑,甚至被质疑是为其主导的“世界模型”研究争取资源。
就在本月,随着JEPA 2论文的发布,它出色的效果总算为杨立昆扳回了一局。
而一篇由他共同署名的重量级新研究《从toekn到思想:LLM与人类如何在压缩与意义之间权衡》(From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning),也终于为他长期的批判找到了坚实的理论证据。
论文来源:[2505.17117] From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning
这项研究表明,尽管大型语言模型远非只会模仿的“随机鹦鹉”,但它们理解世界的方式与人类存在着深刻的、或许是根本性的不同 。
更关键的是,这种差异可能并非仅靠扩大模型规模和数据量的“缩放定律”(Scaling Law)就能弥合,它触及了当前人工智能范式的底层基础 。
沿着LLM这条路走,AGI可能真的做不到。
造一把衡量人类和LLM思想区别的尺子
那么,研究者们是如何将一个近乎哲学层面的问题——“机器的理解与人类的理解有何不同?”——转化为一个可以被测量、被量化的科学问题的呢?
他们没有直接去定义“理解”这个模糊的词,而是另辟蹊径,选择去测量“理解”背后的信息组织策略。
因此,他们设计了一个工具,可以作为“认知效率计分器”去衡量不同智能间的认知效率。
这个计分器的任务是评估任何一个智能系统(无论是人类大脑还是AI)在组织信息时的“工作质量”。高质量的工作需要在信息的极致压缩 (Complexity)和意义的忠实保留 (Distortion)两个相互冲突的目标之间取得完美平衡:
这就像整理一个庞大的图书馆,你希望分类标签(比如“科幻”、“历史” )尽可能少而精,让整个系统一目了然。一个高度压缩的系统,意味着你用很少的信息就能把握全局,它的“复杂度成本”很低。
但在追求简洁的同时,你又不希望丢失太多细节。比如,你不能因为“鲸鱼”和“金枪鱼”都生活在水里,就粗暴地把它们塞进同一个“鱼类”的箱子里而忽略它们哺乳动物和鱼类的本质区别。任何分类都会造成原始信息的“失真”,而“失真度成本”衡量的就是这种意义上的损失。
这个计分器的最终得分,我们称之为 L,就是“复杂度成本”与“失真度成本”的总和。
一个完美的系统,它的 L 分数应该尽可能低,代表它用最经济的方式,最大程度地保留了事物的原意。
LLM和人脑,在理解上有本质不同
武装上这把既能测量宏观系统复杂度,又能探查微观类别纯净度的强大“尺子”后,研究者们一共设计了三个实验,去来测量人脑和LLM之间的差距了。
他们选取了多个业界知名的模型家族,包括六个Llama系列模型(参数从10亿到700亿),五个Gemma系列模型(参数从20亿到270亿),十三个Qwen(通义千问)系列模型(参数从5亿到720亿),四个Phi系列模型 ,以及一个70亿参数的Mistral模型来做这一试验。
第一个实验结论:模型能形成抽象的“类”概念
第一个实验,是从宏观上看LLM自发形成的概念类别,在整体结构上与人类的分类习惯是否相似。
他们让一系列LLM处理认知心理学实验中使用的经典词汇,并将它们的词嵌入进行聚类,然后将结果与人类的分类进行比对。
结果显示出了惊人的一致性。无论是大模型还是小模型,它们大体上都能正确地将“水果”、“家具”、“交通工具”等概念的成员识别并聚合在一起,其聚类结果与人类的判断非常接近,都显著高于随机水平。 这证明了LLM并非在胡言乱语,它们确实从海量的文本数据中学习到了深刻的语义关联。这一幕,似乎预示着AI正稳步地向人类智能靠拢。
此图现实了LLM词聚类与人类聚类的相似度,大部分都超越了随机分布。
其中Bert表现最近似人类。
第二个实验结论:类别之下,他们就分不清楚了
表面的相似并不能说明一切。
研究者深入到每个类别的内部,问题开始浮现。第二个问题是:LLM能理解类别内部的精细语义结构,比如“典型性”吗?
对人类而言,一个类别是有“重心”的。“麻雀”显然是比“鸵鸟”或“企鹅”更典型的“鸟” 。这种判断源于我们丰富的、多模态的现实经验——我们知道鸟通常会飞、体型不大、会鸣叫。但LLM有这种“感觉”吗?
所有概念都在一块,分不开层级
答案是否定的。
研究发现,LLM的内部表征虽然能将麻雀和企鹅聚在一起,但它无法稳定地反映出前者比后者更具代表性这一关键的语义细节 。在LLM的“眼中”,一个类别内的所有成员更像是一群距离中心远近不一、但地位相对平等的点,缺乏人类认知中那种强烈的“原型”或“范例”结构。
第三个实验结论:LLM和人脑,走的是不同的压缩策略
现象上的差异,必然源于底层逻辑的不同。第三个实验是为了回答,两种智能在面对“压缩vs.意义”这个根本性权衡时,各自的策略是什么?
此时,“效率计分器”(L) 终于发挥了其最终的裁决作用。研究者将人类的分类数据和所有LLM的聚类结果,都代入了这个统一的评分框架。
结果相当清晰。所有的LLM,从最小的到最大的,无一例外地都获得了极低的L分数,它们是天生的“效率之王”。
它们的内在运作机制,似乎被一种无形的力量驱动着,去寻找数据中最优的统计压缩方案,以最小的复杂度成本和失真度成本来组织信息。 而人类的认知数据,则得到了显著更高的L分数,在这个纯粹的统计效率竞赛中“惨败”。
左图:人类的信息熵普遍高于LLM;右图:人类的L值得分远低于LLM,压缩度不高
这正是整篇论文最深刻的洞见:人类认知系统中的这种“低效”,并非缺陷,而是其强大功能的体现。我们的大脑并非为了成为一个完美的压缩软件而进化。它的首要任务是在复杂、动态、充满不确定性的真实世界中生存和繁衍 。
为此,我们的概念系统必须是灵活、丰富、可塑的,能够支持我们进行复杂的因果推理、功能判断,并实现有效的社会沟通 。
这种为了“适应性”而保留的“冗余”和“模糊性”,在纯粹的统计计分器上,自然就表现为“低效”。
所以问题就在于,一个分不清企鹅和麻雀哪个更像鸟的智能,就算高效,真的足够理解世界吗?
Scaling Law失灵了?
你也许会问,Scaling Law路线呢?扩大参数量能否让模型的压缩也足够丰富,能够理解更复杂的语义结构,并且更像人了呢?
但论文的一个核心发现正是,参数量不是决定这个根本性策略差异的决定性因素。
在“与人类概念分类对齐”这个任务上(RQ1),并非模型越大就做得越好 。研究明确指出,像BERT-large这样相对较小(约3.4亿参数)的编码器模型,其表现经常与大得多的解码器模型相当,甚至超过它们。
而在第二个实验中,规模效应也不明显:在衡量对齐度的图表中,你可以看到性能点(AMI分数)是分散的,并没有随着模型尺寸(从5亿到700亿参数)的增加而呈现出一条清晰的、持续上升的曲线 。这表明,单纯增加参数量并不能保证模型能更好地抓住人类概念的结构。
因此,规模效应(Scaling Law)在这里完全失效了。
这完美地印证了杨立昆多年来的核心论点。
它表明,当前LLM的自回归训练范式,根本产生不了类人的,能理解世界的智能。
LLM和人类玩的游戏规则完全不同。一个是压缩大师,一个是适应大师。
单纯给LLM这头“压缩猛兽”喂更多的食物(增加参数量),只会让它长得更大、更强壮,但并不会让它进化成“适应性猎手”。物种的“基因”(即模型架构和训练范式)决定了它的基本生存策略。
LLM被判“死刑”?
在详尽地剖析了这项研究所揭示的人机智能之间的深刻鸿沟之后,一个不可避免的问题浮现在我们面前:这是否意味着当前以GPT系列为代表的大型语言模型,其技术路线已被宣判“死刑”?
答案或许是否定的。
当下,其实已经有三条可能破除这个瓶颈的路径了。其中第一条,还成了业内的主流。
首先,最直接的路径,我们可以称之为“软件层面”的精细调教:引入更丰富的奖励信号。
这是目前业界投入最多、也最接近现实应用的改良方案。
它的核心思想是,既然自回归模型本身是一台强大的、但缺乏价值观的“统计引擎”,那么我们是否可以通过一个足够聪明的“导航系统”——即强化学习中的奖励模型——来引导它的行为?
理论上,我们可以设计一套极其精密的奖励机制,去奖励那些能够体现深刻思考的特质。这实际上正是当前强化学习所采用的路径。当模型能够识别并解释概念的“典型性”时 ,当它能构建出清晰的因果推理链条时,当它能承认自己的知识局限并表达不确定性时,都给予其高额的“奖励”。
然而,杨立昆的这个实验所采用的模型都是非推理型模型。因此奖励信号丰富度是否能真正改变其“统计压缩”的内在表征策略 ,当下至少还是未知的。
至少从当前强化学习所得到的进展来看,这个补丁还是很有效果的。
其次,是一条更激进、更具革命性的“硬件层面”的架构革新:
即从根本上改变自回归模型的生成粒度。既然“逐字生成”的线性模式存在着规划短视的天然缺陷,那么我们是否可以强迫模型在“开口说话”之前,先进行一番“深思熟虑”?
一个绝佳的例证,正是Meta在今年早些提出的“大型概念模型”(Large Concept Models, LCMs)框架。这个框架的设计,正是从预测下一个“词”(Token),跃升到了预测下一个“概念”(Concept)。
这个想法的诱人之处在于,它不再满足于局部的、链式的语言流畅性,而是从架构上要求模型进行更高层次的整体规划。但想要达成它,我们得把模型做成一个双系统。
LCMs中的“概念规划模型”(Production Model),扮演了“系统二”(规划器/思考者)的角色。 这个模块是整个系统的“大脑中枢”,负责进行缓慢、有意识的深度思考。
它不直接生成遣词造句,而是先在一个抽象的“概念空间”中,深思熟虑地规划出一系列代表着思想大纲和逻辑流程的“概念向量”(Concept Vectors)。
这一步,就相当于在进行逻辑规划、构建因果链和设计宏大叙事。
而LCMs中的“文本实现模型”(Realization Model),则完美地对应了“系统一”(执行器)。 它就像我们今天所熟知的、反应迅速、语言流畅的自回归LLM,是一个天赋异禀的“语言大师”。它的任务,是接收来自“系统二”的清晰指令——也就是那一串“概念向量”——然后以极高的效率和语言天赋,将这些抽象的计划“翻译”和“润色”成详尽、连贯、自然的语言文本。
这样一个系统将不再仅仅为了“统计压缩”这个单一目标而存在。它的整个设计,更可能实现人类认知所拥有的那一整套“更广泛的功能性需求”。
最后一条路径,就是杨立昆自己的世界模型之路。它让LLM走出纯粹的文本“洞穴”,去拥抱一个由图像、声音和物理规律构成的、多姿多彩的真实世界。
这条路径的核心,是两大支柱:多模态地基(Multi-modal Grounding)与世界模型(World Models)。
当前LLM的知识是“悬浮”的。论文的研究结果表明,LLM之所以难以捕捉到概念的“典型性”等精细语义,是因为它们的理解缺乏一个坚实的“锚点”。
人类之所以知道“麻雀”比“企鹅”更像一只“标准鸟”,是因为我们关于“鸟”的概念,是由“丰富的、多方面的标准(如感知属性、功能角色)”所共同定义的。因此,解决方案的第一步,就是为这个“大脑”接上“感官”——也就是多模态学习。
第二步,世界模型的优化目标则与LLM完全不同。
它的首要任务不是“如何最有效地压缩信息”,而是“如何最准确地预测真实世界的下一步”。为了准确预测一个玻璃杯掉在地上会碎,而不是会弹起来,模型必须在其内部表征中保留关于“玻璃”的物理属性(易碎性)和“地面”的物理属性(坚硬)的丰富信息。
这些在纯文本压缩任务中可能被视为“噪声”的细节,在预测现实世界的任务中,却是至关重要的核心信号。
因此,这种对物理世界预测准确性的追求,会从根本上迫使模型去构建一种更丰富、更细致、更接近物理现实的内部表征,从而自然地摆脱了为追求简洁而牺牲意义的“过度压缩”陷阱。
但不论是多模态,还是杨立昆自己的JEPA模型(没有语言模块,但也可以外接)都没被放在这个系统下去观察。我们依然不知道他们是否真的能改变模型的根本压缩倾向。
所以,即使存在这篇论文中的问题,LLM也并没有被判处极刑。
但那个单一、庞大、试图包揽一切的“预训练Scaling神话”时代,可能正在迎来它的终局。
因此,未来的旅程,不再是简单地为这个聪明的“缸中之脑”提供更多、更复杂的文本食粮,而是要引导它慢慢长出眼睛、耳朵和双手,让它在与真实世界的互动中,在对物理规律和因果关系的亲身体验中 ,真正理解“从符号到思想”的深刻含义,最终从一个强大的工具,蜕变为一个能与我们共情、共存、共同创造的伙伴。
本文来自微信公众号“腾讯科技”,作者:郝博阳,36氪经授权发布。