10 年前那一步,为什么改变了今天的 AI?
很多人今天谈 AI,盯着的都是新东西。
更大的模型,更长的上下文,更像人的回答。
但 Google DeepMind 在 2026 年 3 月 11 日的一期播客里,讲的却是 10 年前 AlphaGo 击败李世石的那场比赛。
他们把那一刻叫做“AI 的拐点”。
为什么是那场比赛?
因为在那场比赛里,有一步棋改变了很多人对 AI 的理解。
它让人们第一次意识到:AI 不只是会学人,它可能走出人类没走过的路。而这种能力,一旦离开棋盘,会改变的就不只是围棋。
10 年前那一步,怎么一路影响到今天,甚至改了 AI 的发展方向?
第一节|为什么是围棋
要理解那一步棋为什么重要,先要回到当时研究者面对的一个问题:为什么围棋长期被认为是人工智能最难攻克的领域之一。
在这期播客里,AlphaGo 核心架构师 Thore Graepel 回忆说,围棋在 AI 研究者眼里几乎是“完美的挑战”。
原因并不复杂:这个游戏的规则非常简单,但一旦开始对局,局面就会迅速变得极其复杂。
棋盘上每一步看似普通的落子,都可能在几十步之后产生连锁影响。而这些影响往往很难提前看清。
如果只是比较棋盘游戏,很多人会想到国际象棋。早在 1997 年,IBM 的 Deep Blue 就击败了世界冠军卡斯帕罗夫。当时很多人以为,机器很快也会在围棋上取得类似突破。
但结果完全不同。
因为从计算角度看,围棋的复杂程度远远超过国际象棋。
在国际象棋中,一盘棋大约需要考虑六七十步左右,而围棋的对局往往会持续两三百步,每一步又有大量可能的落点。
这意味着,棋局可能出现的变化数量呈指数级增长,很快就超出了传统计算方法能够穷举的范围。
DeepMind 科学负责人 Pushmeet Kohli 在播客中解释过这个差异。围棋之所以困难,不只是因为可能的走法很多,更关键的是对局过程很长,需要连续推演许多层变化。
对于机器来说,这意味着需要在一个巨大得难以想象的空间里寻找合理的路径。
人类棋手面对这种复杂局面时,有一套自己的应对方式。他们不会去计算所有可能的变化,而是依靠经验与直觉先筛选出“看起来有前景”的方向,然后再做进一步推演。
问题在于,早期的人工智能并不具备这种能力。
传统人工智能方法依赖大量计算,通过不断尝试不同走法来寻找更好的结果,但在围棋这种复杂问题上很快就会遇到瓶颈。所以在很长时间里,围棋被视为AI 领域的一道难关,因为它不仅考验计算能力,还需要类似人类直觉的能力。
当 DeepMind 开始研究围棋时,他们尝试把这两种思考方式结合起来。
一方面,用深度学习去学习棋局中“看起来有前景”的落子方向;
另一方面,再用计算方法去推演可能的后续变化。
换句话说,机器既要能快速看出大致方向,也要能够在关键局面继续深入分析。
这种方法,让研究者第一次看到了突破的可能。
第二节|第 37 手:机器走出了新路
如果只看比赛结果,AlphaGo 4:1 战胜李世石或许会被理解为一次技术进步。
但真正让人记住的,是第二局的一步棋。
AlphaGo 在棋盘第五线下出了一手“肩冲”。
当时在解说席上的职业棋手 Michael Redmond 一度以为是记录出了问题。
他拿起棋子又放下,因为在传统围棋理论里,这几乎不是一个人类棋手会认真考虑的位置。
后来 DeepMind 团队回忆这一刻时提到一个细节:在 AlphaGo 的模型中,如果按照人类棋手的历史棋谱统计,第 37 手这样的落子出现概率只有万分之一。
随着棋局继续进行,很多原本看起来不合理的布局开始慢慢显现出作用。几十手之后,人们才逐渐意识到,这一步并不是偶然的尝试,而是一种不同于传统思路的策略。
它改变了棋盘两侧的力量分布,也改变了双方对地盘与势力之间关系的理解。
Thore Graepel 在播客里回忆说,当时坐在他旁边的一位职业棋手最初完全不理解这一步的意义,甚至说自己平时会明确告诉学生不要这样下。
但在比赛结束后,那位棋手又专门回来对他说,这是他见过最难忘的一场比赛,因为机器用了一种全新的走法。
第 37 手的意义,就在这里。
这一步并不是从人类棋谱里直接学来的,而是在探索过程中形成的新下法。它证明了一件事:机器可以超越已有经验,找到新的解法。
所以很多研究者后来把那一刻当成一个转折点。
第三节|AlphaZero:不需要人类经验
DeepMind 团队也开始思考:这种能力,还有什么可能?
答案很快就来了。
在 AlphaGo 击败李世石之后不久,DeepMind 团队做了一个看起来很简单、但在当时相当大胆的尝试:不再使用任何人类棋谱。
机器不再从几百万局职业棋手的对局中学习,而是只知道两件事:
围棋的规则,以及胜负的标准。
然后让它不断与自己对局,在反复尝试中逐渐找到更好的下法。
这就是 AlphaZero 的工作方式。
机器最开始几乎什么都不知道,它只是不断下棋、不断调整策略。但随着对局次数越来越多,它会逐渐形成一套自己的理解:哪些落子更有潜力,哪些局面更有优势。
DeepMind 团队发现,机器在学习早期,会慢慢“重新发现”许多围棋里早就存在的经典下法。人类几百年总结出的经验,它几乎都会重新试一遍。在继续探索之后,它又会开始放弃其中的一部分。
因为它找到了一些更有效的方式。
Graepel 在播客中说,这正是 AlphaZero 最让研究者兴奋的地方:它不仅能重新发现人类知识,还能在此基础上找到人类没想到的下法。
而且这种能力,在首尔比赛时就有人预见到了。
拍摄 AlphaGo 纪录片的摄制组当时正在收拾设备,但麦克风还开着。
他们无意中录下了一段对话。
谷歌DeepMind 的CEO Demis Hassabis 和 首席研究科学家David Silver 在聊天。
Demis 说:“太神奇了,看到这个曾经被认为不可能的问题,这么快就被解决了。”
然后他停顿了一下,接着说:“我确定我们现在可以做蛋白质折叠了。我之前就觉得可以,但现在我们绝对能做到。”
第四节|从棋盘到实验室
他们确实做到了,最广为人知的例子是 AlphaFold。
在生物学中,蛋白质如何折叠成三维结构,一直是一个极其困难的问题。
科学家已经知道蛋白质的氨基酸序列,但要推测它最终形成的空间形态,却往往需要多年实验。
AlphaFold 通过学习大量数据和物理规律,在 2020 年的 CASP 竞赛中给出了接近实验精度的预测结果。
许多研究者后来评价说,这项工作让结构生物学的研究速度明显加快。
类似的事情也发生在数学与计算领域。
矩阵乘法是计算机科学中最基础的运算之一,但几十年来,人们几乎没有找到更高效的算法。
DeepMind 让模型在大量可能的计算步骤中不断尝试,结果发现了一些新的算法路径,其中部分方案比人类此前使用的方法更节省计算量。
这就是 AlphaTensor 做的事。
还有一个例子是 AlphaEvolve。
研究团队把探索策略的方式应用到工程问题上,例如优化数据中心的资源分配、改进物流路线等。
在这些场景中,机器会在大量可能方案中寻找更好的安排方式,而有些结果也超出了工程师原本的设计思路。
从蛋白质折叠,到矩阵乘法,再到工程优化。
这些突破背后,都是同一个方法:让机器在规则明确的环境里自主探索,找到人类没注意到的路径。
这个方法,最早在围棋里被验证。
所以 DeepMind 研究者后来经常回到那场比赛。
当人们问起人工智能为什么会在最近几年突然取得这么多进展时,他们常常提到:
棋盘上的那一步。
结语|10 年后,再看那一步
很多人把 AI 浪潮的起点,放在大模型出现的那几年。
DeepMind 研究者更愿意回到 2016 年。
那场围棋比赛证明了一件事:机器不只会学,它会创造。
这种能力被验证之后,整个研究方向就变了。
10 年前那一步,改变的不是一盘棋的胜负。
改变的,是人们开始相信:给机器足够的规则和探索空间,它可能找到人类没想到的新路径。
这个逻辑,在围棋之后的十年里,被反复验证。
而这只是开始。
📮 原文链接:
https://www.youtube.com/watch?v=qoinGjj60Fo&t=1432s
https://deepmind.google/research/alphago/?utm_source=chatgpt.com
本文来自微信公众号“AI 深度研究员”,作者:AI深度研究员,36氪经授权发布。