10 年前关键一步，为何改变了如今的 AI？

AlphaGo第37手改变AI认知，机器可自主创新。

很多人今天谈 AI，盯着的都是新东西。

更大的模型，更长的上下文，更像人的回答。

但 Google DeepMind 在 2026 年 3 月 11 日的一期播客里，讲的却是 10 年前 AlphaGo 击败李世石的那场比赛。

他们把那一刻叫做“AI 的拐点”。

为什么是那场比赛？

因为在那场比赛里，有一步棋改变了很多人对 AI 的理解。

它让人们第一次意识到：AI 不只是会学人，它可能走出人类没走过的路。而这种能力，一旦离开棋盘，会改变的就不只是围棋。

10 年前那一步，怎么一路影响到今天，甚至改了 AI 的发展方向？

第一节｜为什么是围棋

要理解那一步棋为什么重要，先要回到当时研究者面对的一个问题：为什么围棋长期被认为是人工智能最难攻克的领域之一。

在这期播客里，AlphaGo 核心架构师 Thore Graepel 回忆说，围棋在 AI 研究者眼里几乎是“完美的挑战”。

原因并不复杂：这个游戏的规则非常简单，但一旦开始对局，局面就会迅速变得极其复杂。

棋盘上每一步看似普通的落子，都可能在几十步之后产生连锁影响。而这些影响往往很难提前看清。

如果只是比较棋盘游戏，很多人会想到国际象棋。早在 1997 年，IBM 的 Deep Blue 就击败了世界冠军卡斯帕罗夫。当时很多人以为，机器很快也会在围棋上取得类似突破。

但结果完全不同。

因为从计算角度看，围棋的复杂程度远远超过国际象棋。

在国际象棋中，一盘棋大约需要考虑六七十步左右，而围棋的对局往往会持续两三百步，每一步又有大量可能的落点。

这意味着，棋局可能出现的变化数量呈指数级增长，很快就超出了传统计算方法能够穷举的范围。

DeepMind 科学负责人 Pushmeet Kohli 在播客中解释过这个差异。围棋之所以困难，不只是因为可能的走法很多，更关键的是对局过程很长，需要连续推演许多层变化。

对于机器来说，这意味着需要在一个巨大得难以想象的空间里寻找合理的路径。

人类棋手面对这种复杂局面时，有一套自己的应对方式。他们不会去计算所有可能的变化，而是依靠经验与直觉先筛选出“看起来有前景”的方向，然后再做进一步推演。

问题在于，早期的人工智能并不具备这种能力。

传统人工智能方法依赖大量计算，通过不断尝试不同走法来寻找更好的结果，但在围棋这种复杂问题上很快就会遇到瓶颈。所以在很长时间里，围棋被视为AI 领域的一道难关，因为它不仅考验计算能力，还需要类似人类直觉的能力。

当 DeepMind 开始研究围棋时，他们尝试把这两种思考方式结合起来。

一方面，用深度学习去学习棋局中“看起来有前景”的落子方向；

另一方面，再用计算方法去推演可能的后续变化。

换句话说，机器既要能快速看出大致方向，也要能够在关键局面继续深入分析。

这种方法，让研究者第一次看到了突破的可能。

第二节｜第 37 手：机器走出了新路

如果只看比赛结果，AlphaGo 4:1 战胜李世石或许会被理解为一次技术进步。

但真正让人记住的，是第二局的一步棋。

AlphaGo 在棋盘第五线下出了一手“肩冲”。

当时在解说席上的职业棋手 Michael Redmond 一度以为是记录出了问题。

他拿起棋子又放下，因为在传统围棋理论里，这几乎不是一个人类棋手会认真考虑的位置。

后来 DeepMind 团队回忆这一刻时提到一个细节：在 AlphaGo 的模型中，如果按照人类棋手的历史棋谱统计，第 37 手这样的落子出现概率只有万分之一。

随着棋局继续进行，很多原本看起来不合理的布局开始慢慢显现出作用。几十手之后，人们才逐渐意识到，这一步并不是偶然的尝试，而是一种不同于传统思路的策略。

它改变了棋盘两侧的力量分布，也改变了双方对地盘与势力之间关系的理解。

Thore Graepel 在播客里回忆说，当时坐在他旁边的一位职业棋手最初完全不理解这一步的意义，甚至说自己平时会明确告诉学生不要这样下。

但在比赛结束后，那位棋手又专门回来对他说，这是他见过最难忘的一场比赛，因为机器用了一种全新的走法。

第 37 手的意义，就在这里。

这一步并不是从人类棋谱里直接学来的，而是在探索过程中形成的新下法。它证明了一件事：机器可以超越已有经验，找到新的解法。

所以很多研究者后来把那一刻当成一个转折点。

第三节｜AlphaZero：不需要人类经验

DeepMind 团队也开始思考：这种能力，还有什么可能？

答案很快就来了。

在 AlphaGo 击败李世石之后不久，DeepMind 团队做了一个看起来很简单、但在当时相当大胆的尝试：不再使用任何人类棋谱。

机器不再从几百万局职业棋手的对局中学习，而是只知道两件事：

围棋的规则，以及胜负的标准。

然后让它不断与自己对局，在反复尝试中逐渐找到更好的下法。

这就是 AlphaZero 的工作方式。

机器最开始几乎什么都不知道，它只是不断下棋、不断调整策略。但随着对局次数越来越多，它会逐渐形成一套自己的理解：哪些落子更有潜力，哪些局面更有优势。

DeepMind 团队发现，机器在学习早期，会慢慢“重新发现”许多围棋里早就存在的经典下法。人类几百年总结出的经验，它几乎都会重新试一遍。在继续探索之后，它又会开始放弃其中的一部分。

因为它找到了一些更有效的方式。

Graepel 在播客中说，这正是 AlphaZero 最让研究者兴奋的地方：它不仅能重新发现人类知识，还能在此基础上找到人类没想到的下法。

而且这种能力，在首尔比赛时就有人预见到了。

拍摄 AlphaGo 纪录片的摄制组当时正在收拾设备，但麦克风还开着。

他们无意中录下了一段对话。

谷歌DeepMind 的CEO Demis Hassabis 和首席研究科学家David Silver 在聊天。

Demis 说：“太神奇了，看到这个曾经被认为不可能的问题，这么快就被解决了。”

然后他停顿了一下，接着说：“我确定我们现在可以做蛋白质折叠了。我之前就觉得可以，但现在我们绝对能做到。”

第四节｜从棋盘到实验室

他们确实做到了，最广为人知的例子是 AlphaFold。

在生物学中，蛋白质如何折叠成三维结构，一直是一个极其困难的问题。

科学家已经知道蛋白质的氨基酸序列，但要推测它最终形成的空间形态，却往往需要多年实验。

AlphaFold 通过学习大量数据和物理规律，在 2020 年的 CASP 竞赛中给出了接近实验精度的预测结果。

许多研究者后来评价说，这项工作让结构生物学的研究速度明显加快。

类似的事情也发生在数学与计算领域。

矩阵乘法是计算机科学中最基础的运算之一，但几十年来，人们几乎没有找到更高效的算法。

DeepMind 让模型在大量可能的计算步骤中不断尝试，结果发现了一些新的算法路径，其中部分方案比人类此前使用的方法更节省计算量。

这就是 AlphaTensor 做的事。

还有一个例子是 AlphaEvolve。

研究团队把探索策略的方式应用到工程问题上，例如优化数据中心的资源分配、改进物流路线等。

在这些场景中，机器会在大量可能方案中寻找更好的安排方式，而有些结果也超出了工程师原本的设计思路。

从蛋白质折叠，到矩阵乘法，再到工程优化。

这些突破背后，都是同一个方法：让机器在规则明确的环境里自主探索，找到人类没注意到的路径。

这个方法，最早在围棋里被验证。

所以 DeepMind 研究者后来经常回到那场比赛。

当人们问起人工智能为什么会在最近几年突然取得这么多进展时，他们常常提到：

棋盘上的那一步。

结语｜10 年后，再看那一步

很多人把 AI 浪潮的起点，放在大模型出现的那几年。

DeepMind 研究者更愿意回到 2016 年。

那场围棋比赛证明了一件事：机器不只会学，它会创造。

这种能力被验证之后，整个研究方向就变了。

10 年前那一步，改变的不是一盘棋的胜负。

改变的，是人们开始相信：给机器足够的规则和探索空间，它可能找到人类没想到的新路径。

这个逻辑，在围棋之后的十年里，被反复验证。

而这只是开始。

📮 原文链接：

https://www.youtube.com/watch?v=qoinGjj60Fo&t=1432s

https://deepmind.google/research/alphago/?utm_source=chatgpt.com

本文来自微信公众号“AI 深度研究员”，作者：AI深度研究员，36氪经授权发布。