首页文章详情

10 年前那一步,为什么改变了今天的 AI?

AI深度研究员2026-03-12 09:09
AlphaGo第37手改变AI认知,机器可自主创新。

很多人今天谈 AI,盯着的都是新东西。

更大的模型,更长的上下文,更像人的回答。

但 Google DeepMind 在 2026 年 3 月 11 日的一期播客里,讲的却是 10 年前 AlphaGo 击败李世石的那场比赛。

他们把那一刻叫做“AI 的拐点”。

为什么是那场比赛?

因为在那场比赛里,有一步棋改变了很多人对 AI 的理解。

它让人们第一次意识到:AI 不只是会学人,它可能走出人类没走过的路。而这种能力,一旦离开棋盘,会改变的就不只是围棋。

10 年前那一步,怎么一路影响到今天,甚至改了 AI 的发展方向?

第一节|为什么是围棋

要理解那一步棋为什么重要,先要回到当时研究者面对的一个问题:为什么围棋长期被认为是人工智能最难攻克的领域之一。

在这期播客里,AlphaGo 核心架构师 Thore Graepel 回忆说,围棋在 AI 研究者眼里几乎是“完美的挑战”。

原因并不复杂:这个游戏的规则非常简单,但一旦开始对局,局面就会迅速变得极其复杂。

棋盘上每一步看似普通的落子,都可能在几十步之后产生连锁影响。而这些影响往往很难提前看清。

如果只是比较棋盘游戏,很多人会想到国际象棋。早在 1997 年,IBM 的 Deep Blue 就击败了世界冠军卡斯帕罗夫。当时很多人以为,机器很快也会在围棋上取得类似突破。

但结果完全不同。

因为从计算角度看,围棋的复杂程度远远超过国际象棋。

在国际象棋中,一盘棋大约需要考虑六七十步左右,而围棋的对局往往会持续两三百步,每一步又有大量可能的落点。

这意味着,棋局可能出现的变化数量呈指数级增长,很快就超出了传统计算方法能够穷举的范围。

DeepMind 科学负责人 Pushmeet Kohli 在播客中解释过这个差异。围棋之所以困难,不只是因为可能的走法很多,更关键的是对局过程很长,需要连续推演许多层变化。

对于机器来说,这意味着需要在一个巨大得难以想象的空间里寻找合理的路径。

人类棋手面对这种复杂局面时,有一套自己的应对方式。他们不会去计算所有可能的变化,而是依靠经验与直觉先筛选出“看起来有前景”的方向,然后再做进一步推演。

问题在于,早期的人工智能并不具备这种能力。

传统人工智能方法依赖大量计算,通过不断尝试不同走法来寻找更好的结果,但在围棋这种复杂问题上很快就会遇到瓶颈。所以在很长时间里,围棋被视为AI 领域的一道难关,因为它不仅考验计算能力,还需要类似人类直觉的能力。

当 DeepMind 开始研究围棋时,他们尝试把这两种思考方式结合起来。

一方面,用深度学习去学习棋局中“看起来有前景”的落子方向;

另一方面,再用计算方法去推演可能的后续变化。

换句话说,机器既要能快速看出大致方向,也要能够在关键局面继续深入分析。

这种方法,让研究者第一次看到了突破的可能。

第二节|第 37 手:机器走出了新路

如果只看比赛结果,AlphaGo 4:1 战胜李世石或许会被理解为一次技术进步。

但真正让人记住的,是第二局的一步棋。

AlphaGo 在棋盘第五线下出了一手“肩冲”。

当时在解说席上的职业棋手 Michael Redmond 一度以为是记录出了问题。

他拿起棋子又放下,因为在传统围棋理论里,这几乎不是一个人类棋手会认真考虑的位置。

后来 DeepMind 团队回忆这一刻时提到一个细节:在 AlphaGo 的模型中,如果按照人类棋手的历史棋谱统计,第 37 手这样的落子出现概率只有万分之一。

随着棋局继续进行,很多原本看起来不合理的布局开始慢慢显现出作用。几十手之后,人们才逐渐意识到,这一步并不是偶然的尝试,而是一种不同于传统思路的策略。

它改变了棋盘两侧的力量分布,也改变了双方对地盘与势力之间关系的理解。

Thore Graepel 在播客里回忆说,当时坐在他旁边的一位职业棋手最初完全不理解这一步的意义,甚至说自己平时会明确告诉学生不要这样下。

但在比赛结束后,那位棋手又专门回来对他说,这是他见过最难忘的一场比赛,因为机器用了一种全新的走法。

第 37 手的意义,就在这里。

这一步并不是从人类棋谱里直接学来的,而是在探索过程中形成的新下法。它证明了一件事:机器可以超越已有经验,找到新的解法。

所以很多研究者后来把那一刻当成一个转折点。

第三节|AlphaZero:不需要人类经验

DeepMind 团队也开始思考:这种能力,还有什么可能?

答案很快就来了。

在 AlphaGo 击败李世石之后不久,DeepMind 团队做了一个看起来很简单、但在当时相当大胆的尝试:不再使用任何人类棋谱。

机器不再从几百万局职业棋手的对局中学习,而是只知道两件事:

围棋的规则,以及胜负的标准。

然后让它不断与自己对局,在反复尝试中逐渐找到更好的下法。

这就是 AlphaZero 的工作方式。

机器最开始几乎什么都不知道,它只是不断下棋、不断调整策略。但随着对局次数越来越多,它会逐渐形成一套自己的理解:哪些落子更有潜力,哪些局面更有优势。

DeepMind 团队发现,机器在学习早期,会慢慢“重新发现”许多围棋里早就存在的经典下法。人类几百年总结出的经验,它几乎都会重新试一遍。在继续探索之后,它又会开始放弃其中的一部分。

因为它找到了一些更有效的方式。

Graepel 在播客中说,这正是 AlphaZero 最让研究者兴奋的地方:它不仅能重新发现人类知识,还能在此基础上找到人类没想到的下法。

而且这种能力,在首尔比赛时就有人预见到了。

拍摄 AlphaGo 纪录片的摄制组当时正在收拾设备,但麦克风还开着。

他们无意中录下了一段对话。

谷歌DeepMind 的CEO Demis Hassabis 和 首席研究科学家David Silver 在聊天。

Demis 说:“太神奇了,看到这个曾经被认为不可能的问题,这么快就被解决了。”

然后他停顿了一下,接着说:“我确定我们现在可以做蛋白质折叠了。我之前就觉得可以,但现在我们绝对能做到。”

第四节|从棋盘到实验室

他们确实做到了,最广为人知的例子是 AlphaFold。

在生物学中,蛋白质如何折叠成三维结构,一直是一个极其困难的问题。

科学家已经知道蛋白质的氨基酸序列,但要推测它最终形成的空间形态,却往往需要多年实验。

AlphaFold 通过学习大量数据和物理规律,在 2020 年的 CASP 竞赛中给出了接近实验精度的预测结果。

许多研究者后来评价说,这项工作让结构生物学的研究速度明显加快。

类似的事情也发生在数学与计算领域。

矩阵乘法是计算机科学中最基础的运算之一,但几十年来,人们几乎没有找到更高效的算法。

DeepMind 让模型在大量可能的计算步骤中不断尝试,结果发现了一些新的算法路径,其中部分方案比人类此前使用的方法更节省计算量。

这就是 AlphaTensor 做的事。

还有一个例子是 AlphaEvolve。

研究团队把探索策略的方式应用到工程问题上,例如优化数据中心的资源分配、改进物流路线等。

在这些场景中,机器会在大量可能方案中寻找更好的安排方式,而有些结果也超出了工程师原本的设计思路。

从蛋白质折叠,到矩阵乘法,再到工程优化。

这些突破背后,都是同一个方法:让机器在规则明确的环境里自主探索,找到人类没注意到的路径。

这个方法,最早在围棋里被验证。

所以 DeepMind 研究者后来经常回到那场比赛。

当人们问起人工智能为什么会在最近几年突然取得这么多进展时,他们常常提到:

棋盘上的那一步。

结语|10 年后,再看那一步

很多人把 AI 浪潮的起点,放在大模型出现的那几年。

DeepMind 研究者更愿意回到 2016 年。

那场围棋比赛证明了一件事:机器不只会学,它会创造。

这种能力被验证之后,整个研究方向就变了。

10 年前那一步,改变的不是一盘棋的胜负。

改变的,是人们开始相信:给机器足够的规则和探索空间,它可能找到人类没想到的新路径。

这个逻辑,在围棋之后的十年里,被反复验证。

而这只是开始。

📮 原文链接:

https://www.youtube.com/watch?v=qoinGjj60Fo&t=1432s

https://deepmind.google/research/alphago/?utm_source=chatgpt.com

本文来自微信公众号“AI 深度研究员”,作者:AI深度研究员,36氪经授权发布。