LLM只是“黑暗中的文字匠”?李飞飞:AI的下一个战场是“空间智能”
美国当地时间11月10日,“AI教母”李飞飞亲自撰文,生成AI的下一个战场是“空间智能”(Spatial Intelligence)。她首次系统性地解释了什么是空间智能?它为什么如此重要?以及如何构建能够解锁空间智能的世界模型。
李飞飞一针见血地指出了当前AI存在的“致命缺陷”:它们只是“黑暗中的文字匠”,只懂语言,不懂世界!当前的AI掌握了海量的抽象知识,但对于“物体是什么形状?”“多大力气会把杯子推倒?”“转个弯会不会撞墙?”这类物理世界的常识和空间规律,它几乎一无所知。
这种缺陷,直接卡死了AI升级的“大动脉”!这也是为什么自主机器人仍然像个蹒跚学步的孩子,为什么我们渴望的沉浸式元宇宙体验还遥遥无期。
李飞飞教授敲响警钟:AI的下一个十年的真正突破,不再是堆砌文字,而是要解锁“空间智能”!这是连接感知、想象和行动的终极能力。
李飞飞此文发布后,立即在社交平台引发热议:
非常期待看到世界模型如何改变我们讲故事、构建虚拟世界乃至发展数字经济的方式。
AI 已经学会了“看”和“说”,而下一步,我们正在教它理解并适应我们所在的这个真实世界。
空间智能是世界模型中缺失的一环,它将推动LLM的能力实现一次巨大飞跃,只要因果推理能力和能效达到相应水平,我们就将站在通往AGI的拐点上。
以下为李飞飞撰文全文:
从文字到世界:空间智能是AI的下一个前沿
1950年,当计算机还只能完成自动化算术和简单逻辑运算时,艾伦·图灵提出了一个至今仍在叩问时代的问题:机器能够思考吗?
要理解他当年的远见,需要非凡的想象力:智能或许终将由人类构建,而非坐等天降。这一洞见后来催生了名为“人工智能”的持续探索。在我投身AI研究的二十五年后,图灵的愿景依然激励着我。但我们离目标还有多远?答案并不简单。
如今,以大语言模型(LLM)为代表的尖端AI技术,已经开始改变我们获取和运用抽象知识的方式。然而它们终究像是“黑暗中的文字匠”,辞藻华丽却缺乏历练,学识渊博却脱离实际。空间智能将重塑我们创造现实世界与虚拟世界的方式,推动叙事艺术、创意产业、机器人技术、科学探索等领域的革命性进步。这,就是AI亟待开拓的新前沿。
自我踏入这个领域以来,对视觉与空间智能的追寻始终是指引我前行的北极星。正因如此,我花费数年构建了ImageNet,即首个大规模视觉学习与基准测试数据集。它与神经网络算法、GPU等现代算力共同构成了现代AI诞生的三大支柱。
正因如此,我在斯坦福的实验室过去十年始终致力于将计算机视觉与机器人学习相融合。也正因如此,我与贾斯汀·约翰逊(Justin Johnson)、克里斯托夫·拉斯纳(Christoph Lassner)和本·米尔登霍尔(Ben Mildenhall)共同创立了World Labs,期待首次完整实现这个愿景。
本文将阐述空间智能的内涵与价值,并展示我们如何通过构建世界模型来释放其潜能。这场变革将重塑创造力、具身智能乃至人类文明的进程。
空间智能:人类认知的基石
AI从未像今天这样令人振奋。以大语言模型为代表的生成式AI已从实验室走向日常生活,成为数十亿人创作、生产与沟通的工具。它们展现出曾经难以想象的能力:流畅行文、批量编码、生成逼真图像甚至短视频。AI能否改变世界已无需争论,从任何合理定义来看,变革早已开始。
然而,我们面前依然横亘着无数挑战。自主机器人的愿景仍停留在概念阶段,远未成为未来学家预言的生活常态。在疾病治疗、新材料发现、粒子物理等领域实现研究加速的梦想大多尚未实现。能够真正理解并赋能人类创造者的AI仍遥不可及,比如帮助学习分子化学的学生、构想空间的设计师、构建世界的电影人,还是追求沉浸式体验的普通人。
要理解这些能力为何难以突破,我们需要回溯空间智能的演化历程,审视它如何塑造我们对世界的认知。
视觉长期被视为人类智能的基石,但其力量源于更本质的源头。早在动物能筑巢、抚育后代、用语言交流或建立文明之前,简单的感知能力已悄然点燃智能进化的星火。
这种从外界获取信息的能力,无论是捕捉一缕光线还是感知物体纹理,在感知与生存之间架起了桥梁。随着世代更迭,这座桥梁变得愈发坚固复杂。层层神经元由此生长,形成能够解读世界、协调生物与环境互动的神经系统。因此许多科学家推测:感知与行动的循环驱动着智能进化,也是自然塑造人类——这种集感知、学习、思考与行动能力于一身的存在——的根本基础。
空间智能定义着我们与物理世界的互动方式。日常生活中,我们靠它完成最寻常的动作:通过想象保险杠与路缘的间距来停车;接住抛来的钥匙;在拥挤街道自如穿行;或是睡眼朦胧地准确倒入咖啡。在极端情境下,消防员能在浓烟弥漫的坍塌建筑中穿行,凭直觉判断结构稳定性,通过手势、体态与专业本能进行无法用语言替代的交流。幼儿在学会说话前,正是通过与环境互动来认知世界。这一切都自然而然地发生,而这种流畅能力正是机器尚未掌握的境界。
空间智能同样是想象与创造的根基。从史前岩画到现代影音,再到沉浸式游戏,创作者通过在脑海中构建独特世界,并借助视觉媒介将其呈现出来。无论孩童堆砌沙堡还是玩《我的世界》,基于空间的想象力构成了虚实世界互动体验的基础。在工业领域,物体、场景与动态环境的仿真驱动着从工业设计、数字孪生到机器人训练的关键应用。
在文明史上的决定性时刻,总有空间智能的身影:古希腊的埃拉托色尼(Eratosthenes)将影子转化为几何测量,通过亚历山大与赛伊尼两地的日影夹角计算出地球周长;哈格里夫斯(Hargreaves)发明的"珍妮纺纱机"通过将纺锤并列放置的空间构想,使单人工效提升八倍,革新纺织业;沃森(Watson)与克里克(Crick)通过操纵三维分子模型,让碱基对的空间排列豁然开朗,进而揭开了DNA结构之谜。这些突破都证明:当需要操纵物体、可视化结构与推理空间关系时,这些都无法仅靠文字实现,但空间智能推动着文明前进。
空间智能是支撑人类认知的隐形脚手架。不论被动观察还是主动创造,它都在默默运作;即便处理最抽象的议题,它也驱动着我们的推理规划;无论言语交流、身体互动,还是与环境对话,它都不可或缺。虽然常人未必能如埃拉托色尼般揭示宇宙真理,但我们始终在用相同的方式思考:通过感官感知复杂世界,并凭借对物理空间运作机制的直觉理解来把握现实。
遗憾的是,当今的AI尚未具备这样的思维能力。
过去几年确实取得了显著进展。融合海量多媒体数据训练的多模态大模型已具备基础空间意识,能够解析图像、回答问题,生成超写实画面与短视频。借助传感器与触觉技术突破,最先进的机器人已能在受限环境中操作工具。
但坦诚而言,AI的空间能力仍远逊于人。其局限显而易见:顶尖多模态模型在估算距离、方向、尺寸,或进行物体"心理旋转"时的表现几乎与随机猜测无异,它们无法穿越迷宫、识别捷径或预测基础物理现象,初现锋芒的AI生成视频常在数秒后失去连贯性。
当前表现卓越的AI在阅读、写作、研究与数据模式识别方面表现出色,但这些模型在表征物理世界或与现实互动时存在根本缺陷。人类对世界的认知是整体性的,不仅关注所见之物,更理解万物空间关联、内在意义与价值所在。通过想象、推理、创造与互动(而非单纯描述)来理解世界,才是空间智能的真谛。缺乏这种能力,AI就与它试图理解的物理现实割裂开来,无法胜任驾驶汽车、指导家居医疗机器人、创造新型沉浸式学习娱乐体验,或加速材料科学与医学探索等任务。
哲学家维特根斯坦(Wittgenstein)曾说过:"我的语言界限就是我的世界的界限"。我虽非哲学家,但我深知对AI而言,世界不止于文字。空间智能代表着超越语言的新前沿,这种联结想象、感知与行动的能力,将为机器真正赋能人类生活开启无限可能。
AI未来十年:构建真正具备空间智能的机器
我们该如何构建具备空间智能的AI?通往让机器像埃拉托色尼般洞察时空、如工业设计师般精准构思、同故事大师般恣意创造、如急救人员般灵活应对的路径何在?
实现空间智能需要比大语言模型更宏大的构想:世界模型。这类新型生成模型在理解、推理、生成及与语义-物理-几何-动态复合的虚实世界互动方面,将远超现有模型能力范围。这个新兴领域正在孕育多种技术路径。World Labs在2024年初创立正是基于一个信念:基础范式尚在形成之中,这将成为未来十年的决定性课题。
在这个新兴领域,确立发展原则至关重要。我认为空间智能的世界模型需具备三项核心能力:
1. 生成性:创造符合感知、几何与物理规律的世界
真正的世界模型不仅要理解空间,更要能生成自身的模拟世界。它必须能根据语义或感知指令,创造无限多样且保持几何、物理、动态一致性的虚拟空间。
学术界正在探索这些世界应采用隐式(implicit)还是显式(explicit)的几何表征。除强大的隐式表征外,我认为通用世界模型的输出还需支持生成显式可观测的世界状态,特别是要确保对当前状态的理解与导致现状的历史状态保持连贯。
2. 多模态:本质上的多元融合
如同人或动物的本能,世界模型应能处理多种形式的输入(在生成式AI中称为"提示")。无论是图像、视频、深度图、文本指令、手势或动作,给定局部信息后,模型都应预测或生成尽可能完整的世界状态。
这要求模型既具备真实视觉的解析精度,又拥有理解语义指令的灵活度,使智能体与人类都能通过多样输入与模型交流世界认知。
3. 交互性:基于行动推演世界状态
当动作或目标作为输入时,世界模型必须能输出世界的后续状态(隐式或显式)。当仅输入动作时,模型应生成与历史状态、目标设定及语义物理规律一致的结果。随着模型能力提升,在给定目标时,模型不仅可预测世界状态,还能推导达成目标的后续行动序列。
这项挑战的维度超越AI以往任何课题。
语言作为人类认知的生成现象遵循相对简单的规则,而世界运行法则远为复杂。以地球为例,重力制约运动,原子结构决定光色,无数物理定律约束着每次相互作用。即便最天马行空的虚拟世界,其构成元素也需遵循设定的物理与动态规则。协调语义、几何、动态与物理的一致性,需要全新方法论。表征世界的维度复杂度远超语言这类一维序列信号。要实现人类级的通用世界模型,还需突破多项技术壁垒,而这正是World Labs研究团队致力攻克的方向。
我们当前的重点课题包括:
新型通用训练目标函数:为世界模型定义一个如LLM中"下一token预测"般简洁优雅的通用目标函数,始终是该领域的核心课题。由于世界模型输入与输出空间的高度复杂性,此类函数的构建本就困难重重。尽管前路漫漫,但这项目标函数及其对应表征必须遵循几何与物理定律,恪守世界模型作为想象与现实根基的基本特质。
大规模训练数据:训练世界模型所需的数据复杂度远超文本处理。值得庆幸的是,海量数据源已然存在,网络上的图像与视频集合构成了丰富的训练素材,关键在于开发能从这些二维视觉信号(即RGB帧)中提取深层空间信息的算法。过去十年研究已证明,数据规模与模型能力间的缩放定律在语言领域的威力。对世界模型而言,突破点在于构建能同等规模利用视觉数据的架构。此外,高质量合成数据以及深度、触觉等多模态信息同样不可或缺,它们能在训练关键阶段有效补充网络数据。但前进之路仍取决于更先进的传感系统、更稳健的信号提取算法,以及更强大的神经模拟方法。
新型模型架构与表征学习:世界模型研究必将推动模型架构与学习算法的革新,尤其需要突破当前多模态大模型与视频扩散范式的局限。现有方法通常将数据转换为二维序列,这使简单空间任务(如统计视频中椅子数量、回忆房间此前样貌)变得异常困难。三维/四维感知的token化、上下文构建与记忆机制等替代架构或许能开辟新径。例如,我们在World Labs开发的实时生成框架模型RTFM就体现了这种转变,通过空间锚定的帧记忆体系,在保持生成世界持续性的同时实现高效实时生成。
显然,在通过世界模型完全释放空间智能的潜力之前,我们仍面临严峻挑战。但这不仅是理论探索,更是催生新一代创意与生产力工具的核心引擎。令人振奋的是,World Labs已取得积极进展。我们近期向部分用户展示了首款世界模型Marble的雏形,该模型能通过多模态提示生成并维持一致的3D环境,支持创作者在工作流中进行探索、互动与深度开发,我们正全力推动其早日公开。
Marble仅是我们构建真正空间智能世界模型的第一步。随着研究加速,学界、业界与用户正逐渐认识到其非凡潜力。下一代世界模型将使机器实现全新维度的空间智能,这项突破将解锁当前AI系统普遍缺失的关键能力。
运用世界模型,为人类构建更美好的世界
驱动AI发展的初心至关重要。作为参与开创现代AI时代的科学家之一,我的信念始终明确:AI必须增强人类能力,而非取代人类。
多年来,我始终致力于让人工智能的发展、部署与治理符合人类需求。在这个技术乌托邦与末日预言盛行的时代,我依然秉持务实态度:AI由人创造、为人所用、受人监管,必须始终尊重人类的能动性与尊严。
AI的魅力在于拓展我们的能力边界,让我们更具创造力、联系更紧密、效率更高、生活更充实。空间智能正是这一愿景的体现:它赋能创作者、护理者、科学家和梦想家,去实现曾经不可能完成的目标。正是这一信念,驱使我将空间智能视为AI的下一伟大前沿。
空间智能的应用将分阶段展开:创意工具正在涌现,World Labs的Marble已将这种能力交到创作者和叙事者手中。机器人技术是充满雄心的中期目标,需要我们完善感知与行动的闭环。而最具变革性的科学应用虽需更长时间,但必将对人类繁荣产生深远影响。
在这些时间线上,有几个领域因其重塑人类能力的潜力而尤为突出。这需要集体的巨大努力,远非单个团队或公司所能及。它需要整个AI生态系统的共同参与,包括研究人员、创新者、创业者、企业乃至政策制定者,朝着共同愿景努力。但这个愿景值得追求。
未来图景如下:
创造力:为叙事与沉浸体验注入超能力
我最喜欢的爱因斯坦名言是:"创意,是智慧的乐趣。"
早在文字出现之前,人类就开始讲故事,并将它们绘于洞穴墙壁,代代相传,在共同叙事上建立整个文化。故事是我们理解世界、跨越时空连接彼此、探索人性真谛的方式,最重要的是,它是我们寻找生命与爱的意义的途径。如今,空间智能有潜力以尊重故事本质的方式,变革我们创造和体验叙事的方法,并将其影响力从娱乐延伸至教育,从设计拓展到建造等领域。
World Labs的Marble平台将为电影制作人、游戏设计师、建筑师及各类叙事者提供前所未有的空间能力和编辑控制力,使他们能够快速创建并迭代完全可探索的3D世界,而无需传统3D设计软件的沉重负担。创作行为依然如既往般重要且充满人性,AI工具只是放大并加速了创作者的成就。这包括:
新维度的叙事体验:电影制作人和游戏设计师正使用Marble,突破预算和地域限制创造完整世界,探索传统制作流程难以实现的各种场景和视角。随着不同媒体和娱乐形式界限的模糊化,我们正迎来融合艺术、模拟与游玩的全新互动体验——个性化世界,任何人(不仅是工作室)都能创造并沉浸于自己的故事中。随着将概念和故事板快速转化为完整体验的新方法兴起,叙事将不再局限于单一媒介,创作者可以自由地在无数平台和界面上构建具有共享主线的世界。
通过设计实现空间叙事:本质上,每个制造物品或建造空间都必须在物理创造前进行虚拟3D设计。这一过程往往耗费大量时间与成本。借助空间智能模型,建筑师可以在投入数月时间进行设计前快速可视化结构,漫步于尚不存在的空间, 讲述关于我们可能如何生活、工作和聚集的故事。工业和时尚设计师可以瞬间将想象力转化为形态,探索物品如何与人体和空间互动。
新的沉浸式与互动体验:人类体验的最深层方式之一,就是创造意义的体验本身。在整个人类历史中,只有一个单一的3D世界:我们共享的物理世界。直到最近几十年,通过游戏和早期虚拟现实,我们才开始窥见共享我们自己创造的替代世界意味着什么。现在,空间智能与新的设备形态(如VR、XR头显和沉浸式显示器)相结合,以前所未有的方式提升了这些体验。我们正迈向一个未来:步入完全实现的多维世界变得像打开书本一样自然。空间智能使世界构建不仅对拥有专业制作团队的工作室开放,也对个人创作者、教育者以及任何有愿景要分享的人开放。
机器人技术:行走中的具身智能
从昆虫到人类,动物都依赖空间智能来理解、导航和与它们的世界互动,机器人也不例外。自该领域诞生以来,具有空间意识的机器一直是人类的梦想,这包括我在斯坦福研究实验室与学生和合作者所做的研究。正因为如此,我对利用World Labs正在构建的这类模型来实现它们感到非常兴奋。
通过世界模型扩展机器人学习:机器人学习的进展取决于可行训练数据的可扩展解决方案。考虑到机器人必须学习理解、推理、规划以及交互的能力,它们需要覆盖极为庞大的状态空间。许多人推测,需要结合互联网数据、合成模拟和真实世界的人类演示捕捉,才能真正创造出可推广的机器人。但与语言模型不同,机器人研究的训练数据稀缺。世界模型将在这方面起决定性作用。随着它们提高感知保真度和计算效率,世界模型的输出可以迅速缩小模拟与现实之间的差距。这将反过来帮助在无数状态、互动和环境的模拟中训练机器人。
伙伴与协作者:作为人类协作者的机器人,无论是在实验室协助科学家,还是帮助独居老人,都可以在急需更多劳动力和生产力的部分领域发挥作用。但这样做需要机器人具备空间智能,能够感知、推理、规划和行动,最重要的是,它们需要保持与人类目标和行为一致。例如,实验室机器人可以替代科学家完成仪器操作,让他们专注于需要灵活性或推理的任务,而家庭助理可以帮助老年人做饭,同时不减少他们的乐趣或自主性。真正能够预测符合此期望的下一个状态甚至可能动作的空间智能世界模型,对于实现这一目标至关重要。
扩展具身形态:人形机器人在我们为自己建造的世界中占有一席之地。但创新的全部益处将来自更加多样化的设计:运送药物的纳米机器人、在狭窄空间导航的软体机器人,以及为深海或外太空建造的机器。无论其形态如何,未来的空间智能模型必须整合这些机器人所处的环境及其自身的具身感知和运动。但开发这些机器人的一个关键挑战是缺乏各种具身形态的训练数据。世界模型将在这些工作的模拟数据、训练环境和基准测试任务中发挥关键作用。
更长远的前景:科学、医疗保健与教育
除了创意和机器人应用,空间智能的深远影响还将延伸至更多能够增强人类能力、拯救生命、加速发现的领域。我重点介绍以下三个可以产生深刻变革的应用领域,尽管不用说,空间智能的用例确实跨越了更多行业。
在科学研究中,空间智能系统可以模拟实验、并行验证假设,并探索人类无法到达的环境,比如深海或遥远的行星。这项技术可以改变气候科学和材料研究等领域的计算建模。通过将多维模拟与真实世界数据收集相结合,这些工具可以降低计算门槛,扩展每个实验室可以观察和理解的范围。
在医疗保健领域,空间智能将重塑从实验室到病床的方方面面。在斯坦福大学,我的学生和合作者花了多年时间与医院、养老院和在家中的患者合作。这段经历让我相信空间智能在这里具有变革潜力。AI可以通过多维建模分子相互作用来加速药物发现,通过帮助放射科医生发现医学影像中的模式来增强诊断,并实现环境监测系统,在不取代康复所需的人际联系的情况下支持患者和护理人员,更不用说机器人在许多不同场景下帮助我们的医护人员和患者的潜力。
在教育领域,空间智能可以实现沉浸式学习,使抽象或复杂的概念变得有形,并创造对我们大脑和身体学习方式至关重要的迭代体验。在AI时代,对于学龄儿童和成人来说,更快、更有效的学习和再技能培训的需求尤为重要。学生可以探索细胞机制或多维度地走进历史事件,教师获得通过互动环境个性化教学的工具。而外科医生、工程师等专业人士则能在高度逼真的仿真环境中安全地练习复杂技能。
跨越所有这些领域,可能性是无限的,但目标始终如一:增强人类专业知识、加速人类发现并放大人类关怀的AI,而不是取代作为人类核心的判断力、创造力和同理心。
写在最后
过去十年,AI已成为一种全球现象,并成为技术、经济甚至地缘政治的转折点。但作为一名研究人员、教育工作者和创业者,最让我受鼓舞的仍然是图灵75年前提出问题背后的精神。我依然与他共享那份好奇,正是这份好奇激励我每天探索空间智能。
有史以来第一次,我们有望建造出与物理世界高度契合的机器,让我们可以将它们视为我们面临的最大挑战中的真正伙伴。无论是在实验室加速我们理解疾病的方式,彻底改变我们讲故事的方式,还是在我们因疾病、伤害或年老而处于最脆弱时刻时支持我们,我们都处于能够提升我们最关心生活方面的技术的风口浪尖。这是一个更深刻、更丰富、更有能力的生活愿景。
在大自然将近五亿年前在远古动物中释放出空间智能的第一缕曙光之后,我们幸运地成为可能很快赋予机器同样能力的技术一代,并有幸利用这些能力为各地人民谋福祉。没有空间智能,我们关于打造真正智能机器的梦想将不会完整。
这样的追求始终是我的北极星。加入我,一起追寻它!
本文来自“腾讯科技”,作者:金鹿,36氪经授权发布。