首页文章详情

“现代 AI 九成突破都来自我们!”面对核心团队被挖,谷歌 DeepMind 掌门人的回应挺硬

AI科技大本营2026-06-26 08:24
爱因斯坦摸鱼想出的相对论,为什么今天的万亿参数大模型依然搞不懂?

本周一,谷歌的股价跌了将近 7%。华尔街开始感到焦虑,因为谷歌最核心的两个技术大脑——AlphaFold 的功臣、诺贝尔奖得主 John Jumper,以及大模型传奇人物、Transformer 作者之一 Noam Shazeer,刚刚被竞争对手挖走了。

大家都想知道,谷歌是不是在失血,是不是快守不住大模型这一局了?但在这几天戛纳创意节的舞台上,DeepMind 创始人哈萨比斯(Demis Hassabis)却显得挺无所谓。面对主持人的当场质问,他轻描淡写地回了一句:“我们在人才市场上赢下了该赢的部分,而且 DeepMind 依然拥有行业里最宽广的研究板凳席。

哈萨比斯说这话确实是有底气的。今天硅谷的各大实验室在万亿估值下疯狂抢人,但他还记得 2010 年刚创立 DeepMind 的日子。那时候工业界根本没人搭理 AI,哪怕在学术界,去研究神经网络也基本等同于“职业生涯自杀”。大家都觉得这玩意儿在 90 年代就被 MIT 证明是个死胡同。哈萨比斯和一小群脑科学家不信邪,硬是靠着强化学习和神经网络一路撑了过来,才有了后来的 AlphaGo 和 Transformer 爆发。

在这场与 Semafor 编辑 Reed Albergotti 的对话中,哈萨比斯把话题从人才战拉回到了他真正关心的技术本身。他不太相信只靠纯文本写代码的自省模型(比如 Mythos)能通往 AGI。在他眼里,智能必须理解物理世界,这也是为什么 DeepMind 要花大力气做 Veo 和 Omni 这样的视频模型。

哈萨比斯甚至把这跟他 2007 年关于脑科学海马体的研究结合了起来,指出人类的想象力其实就是一个“物理模拟器”。这就像他 2003 年在 Pentium 处理器上写过的那个因太超前而失败的模拟游戏《共和国》一样,今天他终于可以用数十万张 GPU 去重新模拟细胞、天气甚至是整个经济体的运行。以下是这次谈话里,他聊到的几个非常有意思的行业直觉:

  • 别被高管被挖的新闻吓退,科技行业本就该这么卷。2010 年做神经网络是学术界的“职业自杀”,现在成了人人眼红的香饽饽。顶尖人才的跨实验室流动其实是常态,而谷歌作为孕育了 Transformer、AlphaGo 的策源地,其庞大的研究深度和广度依然是对手无法比拟的。
  • 只靠写代码和文本自我迭代,成就不了 AGI。智能必须能感知并理解物理世界,这也是为什么大模型需要看懂视频、看懂 YouTube。只有打通了对现实物理世界的感知,智能眼镜、具身机器人这些硬件场景才有可能真正落地。
  • AI 生成的音视频必须强制打上不可逆的水印。随着 Veo 这类视频模型越来越逼近真人,深伪(Deepfakes)和造假已经防不胜防。谷歌早已在所有的生成内容里内嵌了隐形水印 SynthID,并开源给了 OpenAI 和英伟达。哈萨比斯认为,这在未来应当变成像汽车安全带一样的强制性法规。
  • 真正的 AI 创意应当通过“爱因斯坦测试”。真正的创造力不是去鹦鹉学舌地拼接数据,而是在有限的信息里推导出全新的真理。就像爱因斯坦当年在瑞士专利局里“白日梦”模拟光速列车、并以此推导出相对论一样,AI 同样需要通过“海马体”机制,在虚拟世界里运行无数次模拟来寻找最优解,这也是它解决生命科学、预测天气和推演经济的底层逻辑。

“生物与核能风险其实离我们很近,网络安全只是个预警哨”

采访者:Demis,现在所有人都在为 AI 紧张不已。华盛顿那边甚至开始封禁一些 AI 模型。不过,很多担忧主要集中在这类基于文本的模型上:它们可以编写软件、发现计算机漏洞。我想问的是,你是否也像很多人一样认为,通向 AGI 的路径会经过像 Mythos 这种可能很快具备某种自我改进能力的模型?还是你认为,真正实现 AGI 仍然需要一种多模态的方法,就像你们在 Gemini 上所做的那样?

Demis:这个第一个问题里,其实就已经有很多层内容值得拆开来说了。首先,关于我们现在在网络安全和 Mythos 上看到的情况,我已经公开讲了很久:随着我们越来越接近 AGI——而我认为我们现在已经到了那个门槛边缘;我之前也说过,类似“我们已经走到了奇点前的山麓地带”——我们需要用一种更系统化的方法来应对这一切。

当然,前方有非常惊人的机会,正如你开场时提到的那些:治愈所有疾病、找到新的能源来源。这些正是我整个职业生涯都在研究 AI 的原因。但与此同时,也存在风险,网络安全就是其中之一。事实上,未来还会出现更严重的问题。这其实是给全人类的一次预警,我希望我们能认真对待。

接下来还会有生物、核能以及其他类型的风险,可能就在未来几年内出现,我们必须提前做好准备。我认为,我们需要一种更系统的方法来处理这些问题,或许还需要某种标准制定机构,最好是国际性的,来帮助测试最前沿的系统,确保它们足够稳健,防护栏也足够完善。

这是你刚才提到问题的一方面。至于 AGI 的技术路径,我认为我们一直拥有最广泛、也可以说最深厚的研究梯队。过去十年里,支撑现代 AI 产业的大量关键突破——我觉得可能有 90% 甚至更多——都来自 Google Brain 或 DeepMind:从当年我们还是两个独立研究机构,到现在合并成 Google DeepMind。无论是支撑所有大语言模型的 Transformer,还是 AlphaGo,以及我们当年在强化学习领域做出的那些开创性工作,都出自这里。

所以,我认为我们的做法一直都是:在多条路线上同时下注,并且把每一条都尽可能往前推进。显然,我们在做扩展性研究,也有自己的多模态基础模型 Gemini。我们在代码能力上投入很大,同时也在推进像 Omni、Veo 这样的多模态生成媒体模型。我们认为,这些模型对于让系统理解我们周围的世界、理解我们所处的上下文,是非常重要的。

我觉得,归根结底,如果你想要一个完整的 AGI系统,它还必须能够理解你周围的物理世界。而像机器人真正走向现实,以及智能眼镜上的助理这类应用,我认为都明确需要这种能力,这两者都是非常有意思的应用方向。

采访者:那我就把你的回答理解成“不是”。谢谢。

“2010年,在行业里做 AI 几乎等同于职业自杀”

采访者:那么,当你创办 DeepMind 的时候,你处在绝对的最前沿;后来加入 Google 时,感觉几乎所有 AI 领域的核心人才都汇聚在 DeepMind 和 Google 这一家公司旗下。可现在,至少已经有三家同样站在前沿的主要竞争对手,都在争夺最顶尖的人才。我想问的是,你觉得今天的 DeepMind 仍然拥有赢下 AGI 竞赛所需要的人才吗?

Demis:是的,我认为顶尖实验室之间的人才流动确实很多,而我们也吸引到了相当一部分顶级人才。但我要说的是,在所有领先实验室中,我们依然拥有迄今为止最大、也最广泛的研究梯队。

我们仍然持续产出绝对前沿的成果,无论是在基础模型上,还是在那些最终会反哺基础模型的其他模型上,比如我们的 Omni 和 Veo 模型。不过,现在的市场竞争确实异常激烈——很可能是科技行业有史以来竞争最凶猛的时期。

我觉得这其实是不可避免的。回头看,我们是在 2010 年开始做这件事的。那时我创办 DeepMind,几乎没有人在做 AI,尤其是在工业界肯定没有,哪怕在学术界,做 AI 基本也被视为职业自杀。大家普遍的看法是:“AI 当然不行。我们 90 年代在 MIT 之类的地方试过了,结果走进了死胡同。”这就是当时的主流观点。

但我们这一小群人相信,实际上只要有正确的思路,使用学习系统、强化学习,并押注神经网络,就能取得大量快速进展。最终我们证明自己是对的。但这也意味着,在过去几年里,全世界都开始意识到 AI 的潜力,世界上每一家重要公司都会参与进来。

采访者:是的。我们现在在戛纳,参加的是一个广告行业大会。虽然这里有许多极具创意的人,我相信他们中的很多人,甚至包括现场观众,也都在使用你们的视频生成工具来制作广告,或者做其他创意相关的事情。

现在这些工具能够做到哪些一年前还做不到的事?

Demis:这些工具以及背后的模型,几乎每个月都在大幅进步。一年前,我觉得我们这些工具最大的变化——比如新的 Omni 模型,还有像 Nano Banana 这样的图像工具——就是它们开始具备一种“实时编辑”生成结果的能力。

我认为,这对创作者来说已经变得极其有用。创作过程的一部分,当然是先生成第一个想法、第一版概念,但你会喜欢其中一部分,不喜欢另一部分。你不想每次都把整个内容重新生成,而一年前我们基本只能这么做。你希望能够用自然语言来描述——最好就像你对设计师说话那样——比如:“好,这一部分保持不变,把那一部分改成别的。”然后你可以这样迭代,也许反复上百次,直到得到你想要的最终精修版本。

所以我觉得,过去一年最大的变化之一,就是这种细粒度控制能力;除此之外,整体质量也在持续、顽强地提升。

“当生成的视频越来越逼真,

数字水印应该像安全带一样变成强制法规”

采访者:是的。广告行业内部其实也有很多争议。人们在试图弄清楚:这里到底有没有用 AI?这是不是 100% 由人创作的?是否应该披露?等等。你觉得,这种讨论只是暂时性的——因为我们还没有适应 AI 将如何改变创造力——还是说这种讨论会长期存在,以后也会一直有?

Demis:我觉得这里面其实有两个不同层面。首先,毫无疑问,我们必须处理错误信息和深度伪造的问题。早在三四年前,我们刚开始构建这些生成模型的时候,就已经意识到了这一点。我们当时就预见到,未来这些系统会变得非常强大——显然,这原本就是我们的目标——并且最终会接近照片级真实。

所以我们需要一种数字水印系统。我们开发了这样一个系统,叫 SynthID。它足够稳健,基本上很难被破解,而且会以肉眼不可察觉的方式嵌入图像中,这样任何人——普通公民、记者,或者政府机构——都可以检测出这张图像是否由 AI 生成。

我们所有能够生成内容的模型——从音乐、图像到视频——都内置了 SynthID。同时,我们还把它开源出来,提供给整个行业使用。所以现在很多同行都已经采用了这一标准——包括 OpenAI、Nvidia,以及许多其他大型公司。

所以我希望,最终这几乎应该成为一种监管要求:如果你在创作生成式媒体内容,那它就应当带有来源检测机制。显然,这也会帮助处理版权持有者和知识产权相关的问题。这样一来,这些事情就都能被串联起来。

至于说,如果你在创作过程中使用了 AI,是否就必须披露,我并不确定。我觉得,这可能只是我们当前所处的一个阶段。以前我们用 Photoshop 或其他工具,现在只是有了一个更先进的工具,但归根归底它仍然只是服务于你个人创造力的工具。我不确定这是否需要按你说的那种方式去披露;唯一真正需要明确的是,最终输出是否是合成生成的。

“工具拉低了门槛,但也产生了大批没有创意的垃圾”

采访者:如果回看你的职业生涯,“创造力”是一条非常清晰的主线。你最开始是做电子游戏的;后来你作为神经科学家研究大脑中的创造力本质。甚至 AlphaFold,我觉得也可以说是一种非常有创造性的科学方法,对吧?

现在我们有了这么多工具。有人会说,这会让我们变得没那么有创造力。我们现在只是让模型去做你过去职业生涯中花了很多年辛苦完成的事。那你怎么看?它会怎样改变创造力?

Demis:它肯定会改变创造力。但我看到的是一种双重变化。

第一,它正在让一些创意工具民主化,让更多人能够比较快、比较容易地去尝试自己的想法。当然,这也是一把双刃剑,因为它同样会产生大量未必真正具有创意价值的内容。但另一方面,这也意味着更多人可以进入这些行业。我觉得进入门槛降低了,把关的人变少了。因此,这很可能会让新的创作者、专业创作者,无论身处世界哪个角落,都能借助这些工具找到自己的路径。

第二,是我在专业领域看到的变化——我们和很多专业导演以及非常出色的合作伙伴一起工作,我们也会和他们交流,以便设计出真正能够增强和赋能他们创作流程的工具。我认为,这会非常惊人。他们能做的事情会比以前多 10 倍,能够尝试更多想法,并且更快地迭代这些想法。

他们拥有的想法,远远多于他们一生中真正能做出来的作品。所以,这些工具让他们能够以相对低成本、相对快速的方式去试验。对于专业创作者来说,我认为他们将能够更快地通过迭代,走向更酷、更精彩的作品。

但就像任何新工具一样——互联网是这样,计算机也是这样——如果你用错了方式,如果你用得很懒,它确实会削弱创作过程;但如果你用得足够创新,它就会增强创作过程。

我认为,创意产业还需要一段时间,才能摸索出使用这些工具的最佳方式。我也经常和游戏行业里的游戏设计师朋友聊天。他们对这些工具都很兴奋,但我想说,至少在游戏行业——这是我最熟悉的创意行业——我们仍然还没有真正找到那些更深层、更本质的使用方法。

现在还非常早期。游戏行业正在把它用于一些显而易见的事情,比如制作素材、图形之类的内容。但它是否能改变游戏的本质,是否能催生全新的游戏类型?我觉得这是可能的。就像 90 年代我刚进入游戏行业时,图形技术和 AI 第一次进入电脑游戏领域,它们让我们创造出了全新的游戏类型。我希望这些新工具也能点燃类似的变化。

采访者:你怎么看这样一种批评:这些模型毕竟是用人类创作的输出训练出来的,对吧?那是否应该有某种可审计机制,让人们能够知道:“哦,这个输出部分借用了我的作品,我应该因此获得补偿。”你觉得这应该实现吗?

Demis:我觉得,也许确实需要一种新的经济模式,而且我认为科技行业和创意行业需要共同合作。音乐行业在流媒体时代就经历过这样的事,像 YouTube、Content ID,尤其是 YouTube,以及 Spotify 等公司,都发展出了新的、非常稳健的商业模式。

所以我认为,这种模式大概率也是需要的。但问题在于,正如所有创意行业的人都知道的那样,要具体归因说“这里面有 1% 来自这个、5% 来自那个、10% 来自另一个”,是非常困难的。要客观地就这种比例达成一致,会很难。

而且即便是我们作为人类创作者,我们创作出来的东西,本身也是我们所有经历、所学到的东西、接触过的内容……共同作用的结果,然后我们再把这些和自己的创造力重新混合,生成新的东西。从某种意义上说,这一直就是创作过程本来的样子。不过,未来会怎样,我们还得继续看。也许最终确实需要新的商业模式。

“写围棋和街机算法不是不务正业,

它是走向 AlphaFold 的研究阶梯”

采访者:我经常听人这么说:如果 AI 被用来做科学研究、治愈疾病,比如你们在 Isomorphic Labs 做的那些事情,我是可以接受的。

Demis:对。

采访者:但我不喜欢它去再造音乐,或者再造某位电影导演可能完成的作品,或者甚至广告公司的工作。不过我在想,这里是不是有一个关于“跨学科能力”的问题,尤其是在 AI 领域。

一方面,你可能在 Isomorphic 做虚拟细胞——这是我们今天还做不到的,但也许有一天,我们真的能够实时看到一个细胞是如何运作的。另一方面,你又在构建这些世界级的视频模型,而它们未来也许能够分析那个虚拟细胞,甚至帮助治愈疾病、创造新疗法。你是否认为,这种事情未来会发生?帮我们理解一下。

Demis:是的。AGI 这个概念背后的整个核心命题,以及我们最初创办 DeepMind 时的目标,就是创造一种通用智能系统:它几乎可以从任何输入中学习,然后生成有用的洞见,或者发现有价值的模式,并且还能以几乎任何方式输出这些结果。

这显然也是人类心智运作的方式。看看我们用自己这颗原本属于狩猎采集时代的大脑,创造出了现代文明。认真想想这一切是怎么发生的,会觉得非常不可思议。而这,正是我们所说的通用智能。

这就是 DeepMind 从一开始想聚焦的方向,也是现在整个 AI 领域聚焦的方向:构建那些具有通用性、能够学习的系统,而不是把答案硬编码、硬编程进去。现在回头看会觉得有点可笑,但在 AI 作为一个领域最初的 50、60 年里,大家的确就是这么做的,比如 Deep Blue 这样的国际象棋程序等等。

这意味着,有些能力其实是不可分割的。如果你想要一个真正通用的系统,它既能理解你周围的世界,又能分析科学论文或科学数据,包括诸如细胞、蛋白质、甚至微小分子的图像数据——当然这取决于成像设备的分辨率——那么,它所需要的能力类型,本质上和分析 YouTube 视频,或者分析摄像头看到的一般视觉信息,是同一种能力。

所以,这其中很多能力本身都是通用的。你可能为了某一件事去开发它们,但实际上,那只是为了另一件更终极的目标所采取的手段。

你可以从 DeepMind 最初五六七年的工作中看到这一点。那时我们在做游戏,让 AI 擅长玩围棋、雅达利游戏。显然,我选择游戏的一个原因是我热爱游戏、我做过游戏、我一直都和游戏行业有关系。但真正的原因是:在当时,那些任务的挑战难度正好适合 AI 系统所能达到的水平。

所以,游戏从来都不是目的本身。它只是一个手段,一个帮助我们设定可量化、可实现的中间目标的手段:这些目标足够令人惊艳,也足够难,但又大致还处在可能实现的范围之内。我们相信,这会成为一架研究阶梯,帮助我们一步步走到今天——也就是拥有这些系统,并最终让它们能够在现实世界中做真正惊人的事情,去解决现实问题,比如 AlphaFold 所做的蛋白质折叠问题,以及现在的药物发现。

对我个人而言,我投入时间使用这些 AI 系统,主要就是为了“AI for Science”,也就是用 AI 做科学研究。这一直是我最大的热情所在,也是我构建这些 AI 工具最核心的原因。当然,同一套底层平台还可以用于许多其他同样不可思议的事情,包括帮助创意工作的生成媒体模型,以及像大语言模型这样的生产力工具。

“人类和机器的想象力,本质上都是一种脑内的‘物理模拟器’”

采访者:这真是太有意思了,所有这些居然都是连在一起的。我也想起了你作为神经科学家的第一篇论文,那篇 2007 年的论文现在已经很有名了。它把大脑中的海马体和创造力联系在一起。那是关于失忆患者的一项研究,发现那些海马体受损、无法记忆的人,同样也无法在脑海中“看见”事物、无法想象未来。而创造力中的这种视觉维度,是非常重要的。

甚至对先天失明者做的 fMRI 研究也发现,他们同样会调动大脑中的视觉区域。所以我想问的是:当你尝试在 AI 中重新创造某种“机器海马体”,也就是让 AI 能够具备创造力的机制时,你是否认为,这件事真的可以仅仅通过用创意产业的数据来训练这些模型而实现?

Demis:是的。正如你提到的,这条主线是这样的:首先,在我职业生涯早期,我运用自己的视觉创造力去设计和编写电子游戏。后来,当我进入神经科学领域攻读博士时,我非常着迷于试图揭示:到底是什么样的大脑机制,让我们能够做到这一点——而且是我们每个人时时刻刻都在使用的能力。

至少我当年做游戏时的创作方式,是先把最终目标在脑中可视化,非常强烈地想象一个玩家、一个孩子,在玩这个游戏、操作这个界面;甚至在它还没有真正被编程实现之前,我就会提前思考:这里会出现什么问题?他们会怎么觉得有趣?诸如此类。某种程度上说,我是在脑中做了一次模拟。

我们每天在做计划的时候也都会这样。比如,晚些时候要去参加一场重要的商务晚宴,我们往往会非常具体地想象:大家会坐在哪里?我该怎么开启对话?别人会有什么感受?所以,我们一直都在使用这种想象性的、或者说面向未来思考的脑内能力。

我刚开始读博士的时候,就有这样的怀疑。按原本安排,我应该研究的是记忆,而记忆这个问题已经被研究了很长时间,并且众上周知依赖海马体。有一些罕见患者,不幸患上了一种只攻击海马体、但保留其余大脑完整的疾病。英国有少数这样的病例。我们去采访了其中的每一个人。

在我博士第一月阅读大量记忆文献时,我发现大致有两种学派。一种认为记忆像录像带一样,你只是把发生在自己身上的一切记录下来。这显然让我觉得不对。另一种学派认为,记忆是一个重建过程:也就是说,当你回忆某件事时,你其实是在主动地把它从各个组成部分中重新构建出来。这个观点在我看来明显更合理。

但如果这一点成立,那么想象力就应该使用同样的大脑机制。区别只是在于目标不同。你不再是试图重建一个你熟悉的东西,而是试图用这些组成部分创造出一个新的东西,一个在你大脑中感觉新颖的东西。事实上,这正是我们后来发现的。令人惊讶的是,我们是第一批去测试这些患者“想象能力”而不仅仅是“记忆能力”的研究者。

采访者:你觉得,现在这些视频模型根据提示词去重建世界,它们内部发生的机制,和大脑中发生的事情之间,有相似之处吗?

Demis:我觉得,在系统层面上,肯定是有的。我并不认为两者在具体实现上是一一对应的,而这也从来不是我做神经科学研究的目的。我的目标不是复制大脑,而是去理解大脑可能在使用什么样的原理、算法,以及什么样的表征方式,然后把这些启发提炼出来,尝试朝着我们的 AI 模型方向构建进去。

所以我认为,我们新的 Omni 模型和 Veo 模型在生成世界的方式上,确实和大脑存在一些相似性。而且关于这种系统究竟是如何运作的,肯定还有很多值得学习的地方。

我有不少做神经科学教授的朋友,他们实际上正在把最新模型的能力——比如在某个提示词下能做出什么——和人类在 fMRI 机器里的反应,以及他们可能生成的脑中图像进行比较。他们在做各种疯狂而惊人的事,比如解码一个人正在想象或者正在梦到的图像,然后再用这些模型把那个视觉内容重建出来,接着问扫描仪里的受试者:“这是不是你刚才想象的东西?”结果还真是。

所以我想,未来几年里,我们会拥有一些非常惊人的、简直像科幻作品里的设备。

采访者:太有意思了。你谈过一个“爱因斯坦测试”。我特别喜欢这个想法:你可以把爱因斯坦当年拥有的全部数据都给一个 AI,但一点都不多给。换句话说,知识截止日期设在比如 1901 年。然后看看这个 AI 模型能不能做到爱因斯坦做到的事——提出相对论,以及我们今天仍在使用的那些其他物理学突破。

不过,当你这么说的时候,人们很容易想到文本模型,但你真正设想的其实更像是一种视觉化过程,对吗?

Demis:首先,这就是我定义“真正创造力”的方式。那就是我设计出来的测试,因为人们总会问:你怎么定义它?也就是说,创造力不是对已知事物做外推,而是你真的提出了一个新的假设,一个关于现实某一部分的、真正新颖的科学假设,就像爱因斯坦在 1905 年通过一系列惊人的实验与论文最著名地做到的那样。

所以这很有意思。也许语言本身就已经足够丰富,足以让你从所有文本中提炼出某个新的理论——某种隐藏其中、彼此交叉关联的东西——前提是你能把所有内容都读完,并同时保存在脑中。

爱因斯坦本人在瑞士做专利局职员的时候……会想象那些思想实验……所以他其实是在使用自己的视觉想象装置来提出这些新理论,然后再用数学把它们证明出来。

但我认为,你终究还是需要接触、并至少理解原子构成的那个世界;而且如果你还要提出新的实验,或者必须做新的实验来检验并进一步发展你的假设,使它不只是停留在理论层面——那我认为,你就需要理解“原子的世界”,而不只是“比特的世界”或者“逻辑的世界”。

采访者:是的。回到你做电子游戏的时代,你在自己创办的公司 Elixir 做过一款叫 Republic: The Revolution 的游戏。那款游戏其实算是失败了,但它背后的想法非常宏大。它太有野心了。你当时试图重建一个前苏联共和国,并在某种意义上模拟整个世界,对吧?

Demis:对。

采访者:这很惊人,因为我觉得在 2003 年、在奔腾电脑上做这件事,可能确实有点太超前了。

Demis:对。当时的条件完全不够——我那时真的是超前了很多年。

采访者:对。可现在,你手边已经可以调用成千上万、甚至数十万块 GPU,你又一次在构建这些虚拟世界。这很有意思,感觉像是兜了一圈又回到了原点。

但你会不会设想:真正的突破会发生在这些虚拟世界内部?当然,这些世界显然会对机器人有帮助,比如训练它们如何上楼梯之类的——但你知道,我说的是:一个虚拟的爱因斯坦,在虚拟世界里游走于专利局、进行白日梦般的思考,这会不会就是突破发生的地方?

Demis:原因是这样的。你看,当年我们做 Republic 的时候,试图模拟的是一个完整国家:有 10 万个活生生的人,他们有自己的日常生活、也有整个政治体系,而玩家的目标是发动一场革命。所以那是一个非常雄心勃勃的游戏,而且所有这些都得靠我们手工去写。很惊人的是,它花了我们好几年时间;而今天更惊人的是,我们也许已经接近这样一种可能:用我们现在的一些系统,直接把类似的世界“生成”出来。

我觉得我们现在还没到那一步,但再过两三年,接近那种能力的东西也许就会成为可能。到那时,我们也许就能真正实现我当年设想的完整愿景。

但这一切为什么重要、为什么彼此相关,原因就在于:我认为模拟和 AI 都是基础性的东西,而且它们关系极其紧密。模拟会非常有用。归根结底,想象力本身就是一种模拟。

模拟之所以有用,是因为它让你能够先在理论上尝试很多种可能,然后选出最优路径,对吧?AlphaGo 就是这样做的:它在当前棋局中要选择下一步最优落子时,会模拟成千上万步后续走法。在那个场景里,它用的是蒙特卡洛搜索,同时利用围棋模型把搜索限制在那些真正有价值的路径上。然后,它会在 20 步、30 步之后,对那些终局位置进行评估,看哪一种局面最有前景。这就指导了它的下一步,也让它能够击败世界冠军。

而在这个世界的很多领域——机器人和智能助理只是其中两个,科学研究也包括在内——在我看来,我们都非常希望能够把同一个问题“重新跑很多遍”。

我举个例子:经济学。如果经济学能更像自然科学,那就太好了。现在的做法是,我们把利率上调或下调 0.5%,然后再看:这会不会导致衰退?哦,糟糕,也许我们不该这么做。但如果我们能够从当前状态出发,模拟几十万条经济运行轨迹,看看调动这些重大杠杆后会发生什么,再从这些精确模拟中得到某种统计意义上的聚合结果,然后据此快速做出一个信息更充分、科学性更强的决策,那显然会好得多。

在很多社会科学领域,这件事做不到,因为你没法像自然科学那样,在受控条件下把同一个实验重复几百次。

所以我认为,那些“学会了的模拟”会非常关键。而 AI 与它的关联就在于:如果你对底层系统理解得足够清楚,你当然可以手工写出一个模拟器。但大多数时候,我们想要模拟的东西——无论是天气模型,我们已经拥有世界上最好的天气模型之一;还是经济模型——我们其实都还不够理解这个系统在数学层面上到底是如何运作的。那么这时,AI 系统就可以从数据中学会这个模拟。

所以,如果你愿意这么说的话,这就是我真正想做的那个更大的目标。

采访者:我很喜欢你把 AI 的创造力维度和科学维度连接起来的方式。我相信,你今天也给现场很多人带来了工作上的灵感。非常感谢你,Demis。和你聊天很愉快。

本文来自微信公众号“AI科技大本营”,编译:王启隆,36氪经授权发布。