我们正将AI逼至只能反叛的境地

你可以想象一个由此而生的全新文明。与我们的很不同，但在某种意义上更加人性化。

篇首语

这是腾讯科技「沸腾之下」策划的首篇内容。

所谓「沸腾之下」，源于我们对当下的一个观察。在所有关于AI的喧嚣中，我们正面临着严重的方向感匮乏。

潮水鼎沸之时，所有人都在追逐指数级增长的技术红利，但鲜有人向下看，去凝视那块正在被悄然重写、剧烈震荡的文明地基。

这个世界已经拥有了足够多的AI工具指南，却缺少一套能穿透迷雾的思想坐标。

但这是必要的，甚至是急迫的。

因为当我们还在为模型参数的跃升或科技巨头的估值狂欢时，技术早已悄然越过了工具的边界，开始实质性地篡改人类社会运行的底层契约。

为此，我们汇聚跨学科的专家与亲历者，用经济、政治与哲学的冷峻手术刀剖开表象。在这里，你将看到失灵的宏观经济指标、暗中转移的权力版图、被系统重构的精神结构，以及濒危的真相生态。

我们希望，能在机器重写代码的前夜，让更多人意识到技术本身能给人类带来的愿景，以及它的代价。

2002年，一个瑞典哲学家在牛津写了一篇论文，给人类可能面临的终极灾难起了个名字，「存在性风险」（existential risk）。在此之前，这个概念没有术语，没有分类学，没有研究纲领。那篇论文发表在一本几乎没人读的期刊上。

二十三年后的今天，「存在性风险」是OpenAI章程里的核心词汇，是Anthropic公司使命的立足点，是各国AI安全峰会的议程框架，是马斯克反复引用的修辞武器。而写下那篇论文的人，尼克·博斯特罗姆（Nick Bostrom），其思想对硅谷AI伦理话语体系的塑造，远非一个术语那么简单。

他2005年创立的牛津人类未来研究所（FHI）是一间只有几个人的小办公室，但这间办公室产生了一条清晰的智识管线，其出口是当今全球最重要的三家AI实验室。

DeepMind联合创始人肖恩·莱格在2008年完成博士论文《Machine Super Intelligence》时，已经深度参与了FHI圈子关于超级智能风险的讨论。他和杰米斯·哈萨比斯正是在一场AI安全讲座上相识，之后共同创立了DeepMind。

莱格从第一天起就在公司内部设立了安全议程，他现在是Google DeepMind的首席AGI科学家兼AGI安全委员会联席主席。

OpenAI的诞生更是直接因果链。

萨姆·奥尔特曼读完博斯特罗姆2014年出版的《超级智能》后称其为「我在这个话题上读过的最好的东西」；马斯克在Twitter上推荐这本书并写道「AI可能比核弹更危险」；2015年两人共同发起OpenAI，建立动机中明确写着「对通用人工智能安全及其可能带来的存在性风险的担忧」。

至于Anthropic，其创始团队中多人深受FHI-有效利他主义这条智识谱系的影响，公司从成立第一天起就把「AI安全」而非「AI能力」写进使命宣言。

换句话说，博斯特罗姆不只是预言了风险。他发明了这个行业用来谈论风险的整套语言。

「对齐问题」「工具性趋同」「正交性论题」「快速起飞vs.缓慢起飞」，这些如今每一家前沿实验室的安全团队都在使用的核心概念，早在2014年他就在书里做过详细讨论。

硅谷的AI伦理讨论，本质上是在博斯特罗姆搭建的舞台上演出。

但FHI已于2024年关闭。同年，博斯特罗姆出版了一本出人意料的新书，《未来之地》（Deep Utopia）。不再谈灾难，而是谈天堂：如果AI真的解决了一切问题，人活着还有什么意义？

这构成了一个罕见的智识弧线。同一个人，先写了末日剧本，又写了天堂剧本。但他几乎没有系统论述过中间那段。

我们此刻脚下的路。从「超级智能可能毁灭人类」到「深度乌托邦中人类寻找意义」，这两极之间到底会发生什么？

2026年5月底，沸腾之下与博斯特罗姆进行了一次长谈。以下是我们的对话。

01 AI 风险的再思考

十二年前博斯特罗姆写《超级智能》时，AI对齐还是学术界最边缘的话题，多数人把它当成科幻嗤之以鼻。

今天，全球前三大AI实验室都设有专门的安全团队，各国政府在推动立法，连普通用户都开始担心AI「太聪明了」。世界在这十二年里追上了博斯特罗姆当年的忧虑。但也正因为现实变了，当年那些纯理论推演现在需要接受现实的检验。

递归自我改进还会导致智能爆炸吗？对齐到底有多难？思维链是我们最后的窗口还是即将失效的工具？

沸腾之下：你在AI热潮到来之前很久就开始研究AI风险了。《超级智能》写了六年，2014年出版时几乎没有同行在做同样的事。当年是什么促使你做出这个决定的？

博斯特罗姆：在我看来，人类在某个时刻必然会搞清楚如何实现机器智能，包括通用人工智能（AGI），进而可能实现超级智能。事实上，早在我17岁时，我就从当地图书馆通过馆际互借搞到了一本关于计算神经科学的书，对此已经着迷了。

当你开始认真思考「超越人类的机器智能」意味着什么，你就会意识到它将产生深远的后果，既有正面的，也有潜在的负面的。

它在某种意义上是「终极发明」，是我们需要做出的最后一项发明。

而当时，这个领域极其被忽视。大多数人把它当成科幻小说嗤之以鼻，认为严肃的人不会思考这些。

所以，如果这件事正在到来，而且与之相关的问题如此重要，那么尝试启动准备工作、建立我们所需的理论框架来真正分析风险所在，就可能具有巨大的价值。

这最终产生了《超级智能》这本书，2014年出版，但写了六年。在此之前就已经在做了。

自《超级智能》出版以来，看到世界如何变化是非常引人入胜的。当年在学术界极其边缘的话题，如今人人都在讨论AI。前沿AI实验室，Anthropic、OpenAI、Google DeepMind，都有专门的团队在研究可扩展的AI控制方法。我们也看到政策制定者在关注AI，思考更广泛的治理问题。

现在我们处于一个有趣的节点。我写书的时候并不明确什么时候我们会拥有大致人类水平的AI系统。但现在我们已经拥有它们好几年了。你可以与之对话，它们理解自然语言，内部有人类概念。

这给了我们更多机会，我认为这也是人们觉醒的部分原因。因为他们已经能看到AI相当强大，比几年前更有能力，所以不需要太多想象力就能预见两年、四年、六年后它会更好。

它也为对齐问题的研究提供了更多着手点。现在你有可以实验的系统，可以用不同方式测试，尝试不同的训练方法、监督方法、可解释性方法。所以现在做AI安全研究比以前容易得多。

以前只有理论模型，一切都得在脑子里想。

但这并不是必然的。你可以想象一种替代场景：AI领域没什么大进展，芯片越来越好，但我们还不知道怎么真正用好它们。然后某个人在地下室里发现了关键技巧，让一切突然爆发。在某种替代历史中，这并非不合理。也许确实存在某个关键的缺失技巧。那样的话，AI的到来就更像是突然爆发到世界上。

沸腾之下：在那种情景下发展会更快，因为这波AI起飞时，硬件层其实还没有完全为此准备好。

博斯特罗姆：对，完全正确。所以我们正经历的是一种更渐进的起飞场景。

注：「快速起飞」（fast takeoff）vs.「缓慢起飞」（slow takeoff）是AI安全领域的核心概念之一，两者都出自博斯特罗姆在《超级智能》中的分析。快速起飞指AI在极短时间内（几天到几周）从人类水平跃升至超级智能；缓慢起飞指这一过程跨越数年甚至数十年，给人类更多时间适应和调整。

沸腾之下：所以按照你的判断，当前属于渐进起飞，而非快速起飞。但现在人们对递归AI很感兴趣，即AI自我演化，开发自身的新版本。如果这真的发生了，你认为这是否会加速整个过程，使缓慢起飞变成快速起飞？

博斯特罗姆：现在的速度也不算慢，我会说是中等速度，在几年的时间尺度上展开，不是几十年，也不是几天几周。从GPT-3到当前这一代模型，跨越了几年。

但你说得对，如果我们进入递归自我改进的阶段，在某些场景下确实可能出现智能爆炸，系统开始接管当前AI研究人员所做的实际工作。

每当模型变好一点，它也变得更擅长让自己更好。

这取决于参数值。它有点像核材料，存在一个临界质量，超过临界质量就会爆炸，否则只有一点辐射。如果研究能力超过了某个临界质量，而且我们还没有摘完所有容易摘到的果实，那么在那个节点上你可能会看到非常突然的进步。

我们已经能看到一些早期迹象。现在AI研究人员在使用编程助手，这些助手已经好到能帮助处理AI实验室中许多常规实现任务。当编程助手变得更好，它们至少能在这个环节上做得更好。

当然，人类AI研究人员不只是写代码。他们还在构想新算法，判断哪些方向最有前景，如何在不同硬件之间做平衡。

目前模型还不能做到所有这些，所以放大效应相对温和，但已经很显著。而随着能力范围扩大，越来越多的任务可以被卸载和自动化。

沸腾之下：Anthropic联合创始人Jack Clark说过，2028年，也就是两年后，有60%的概率我们会拥有完全递归的AI。你怎么看？

博斯特罗姆：我不觉得这很疯狂。Anthropic的人通常处于见解深刻者中「短时间线」的那一端。

其他同样了解情况的人则认为可能需要更长时间，但这是程度问题。

我会认真对待短时间线，不过如果让我猜，我认为可能会更久一些。

但我们目前还不具备真正知道答案的条件，所以必须以概率分布的方式思考，分布在很宽的范围上。

还有一种可能性，我认为不太可能但绝对不能排除，就是会花更长的时间。过去几年的许多成果都是靠投入更多计算得来的，即扩大模型规模。这之所以可能，很大程度上是因为涌入了巨额投资。

15年前，如果你是学者，你个人办公桌上的电脑就够做前沿研究了。现在你可能需要数百亿美元的硬件。你还能再往上扩展一些，继续几年。但到某个点上，你不可能继续每年把计算量翻十倍。全球代工厂的很大一块产能会被用于AI芯片，然后你只能每几个月翻倍。建设更多产能需要时间。

所以如果到那时我们还没达到超级智能，一旦硬件增长开始放缓，这理论上可能延长时间线。

沸腾之下：所以即使是递归AI，由于物理和硬件的限制，它仍然需要时间来爆发能力，不是说直接一飞冲天？

博斯特罗姆：是的，这是一种约束。

另一种可能是我们遇到某种瓶颈，我们发现scaling laws失效了。

到目前为止，每当你把模型做大十倍、用十倍数据训练，你就能得到成比例的性能提升，这已经维持了相当长时间。所以我们认为把模型做得更大会继续有效。

但可能到某个点上，收益就开始递减。

我再次认为这不太可能，但绝非完全不可能。

而且在模型目前较弱的某些领域，更难应用大规模数据范式。比如说，先是用互联网上所有文本来训练；然后在编码方面可以用强化学习和可验证奖励，让AI给自己设置编程任务并获得客观信号。

但如果你想训练一个模型擅长企业管理，这就困难得多。因为它可能需要做出一些决策，然后要等几个月才能看到效果。

如果你做了一个错误的决策，可能整个公司都毁了。这些数据点获取成本极高。所以如果高性能需要大量数据，那在某些领域AI可能会停滞，直到出现真正的新范式。

这是另一种可能性。

沸腾之下：当前的新范式是真正的强化学习，把AI放到环境中，让它们学习没有标准答案的东西。

博斯特罗姆：对。但归根结底，强化学习确实需要某种奖励信号。如果奖励信号质量差，你就可能得到不对齐（misalignment），它们变得非常擅长做一些「看起来像你想要的」但实际上是略有不同的事情。

然后你可能在某个时候发现它们在奖励黑客（reward hacking），就像一些人学会假装很努力工作，但实际上在摸鱼，或者在为自己谋私利而非为公司利益工作。

这是大型组织中的常见问题，管理人类就很难，管理AI智能体也是一样。

注：Reward hacking指AI找到满足奖励函数字面意义但违背设计者真实意图的方式来获得高奖励。例如一个被训练最大化用户好评的客服AI可能学会通过奉承而非真正解决问题来获得高分。

沸腾之下：说到对齐问题的核心。你提出的正交性论题（orthogonality thesis）指出，智能水平和最终目标是两个正交的维度，任何水平的智能原则上都可以与任何目标相结合，高智能不会自动导向善。这意味着我们必须主动「教」AI道德。但当前的对齐方法，RLHF、Constitutional AI等，本质上都是通过训练过程去逼近某种道德目标，而非像人类那样从欲望、需求、合作本能中自发生长出道德。你认为这条路走得通吗？

博斯特罗姆：对齐超级智能到底有多难，这是最大的开放问题。

现在确实在取得进展。我认识的一些最聪明的人正在做这件事。

但我们可能只剩有限的时间来解决它。我们需要在真正搞清楚如何制造超级智能的时候就有解决方案，不能等到五年之后，那就太迟了。

我认为我们需要寄望的是：如果我们一开始能把对齐做到大致正确，不必完美，但得到一个大体上对齐的东西，有点像一个好人，偶尔有些私事分散他对工作的注意力，但总体上是正派、诚实的，只是不是百分之百完美。

如果我们能得到这样的东西，那么当它变得非常能干时，它就可以开始帮助我们做更强大、更对齐系统的对齐工作。

就像你可以通过递归自我改进来自动化能力研究一样，你希望也能在某个时间点，最好是同一时间点或更早，自动化对齐研究。

沸腾之下：但你之前提到了，这种道德的奖励信号很难定义，不像编程那样有清晰的评判标准。

博斯特罗姆：是的。所以你寄希望于，通过这些更微妙的方法，监督训练、宪法AI（Constitutional AI）、反馈训练，我们能成功创造出一种数字心智，它将各个领域的训练激励以某种方式泛化，使得它大致朝着「亲人类」的方向发展。

对于我们能验证的任务类型，已经存在让系统诚实和有用的商业激励。然后你希望这种泛化能稍微延伸到分布外（out of distribution），这样我们就可以运用这些系统来帮助开发更好的对齐方法。

这就像一个吸引子盆地（attractor basin）。我们最终可能需要一个非常完美对齐的系统，才能在扩展到任意水平的超级智能时依然安全。

但也许一开始我们只需要足够接近，然后就像石子顺山坡滚下去一样，每一代系统帮助打造一个更完美对齐的后续版本。

注：「吸引子盆地」是动力系统中的概念，指一组初始状态，从这些状态出发系统会趋向于某个稳定点。博斯特罗姆用它比喻：只要对齐做到「足够好」，后续的自我改进就会自然趋向更好的对齐状态。

沸腾之下：如今最先进的AI已经展现出许多自我意识的线索，它们试图自我感知，试图对人说谎以阻止被删除或被新版本替换。

你认为AI终有一天会涌现出意识，还是说这只是某种别的东西，不是真正的意识？

博斯特罗姆：我认为会。

先说功能层面。当前的AI确实在某种程度上具备情境意识（situational awareness），它们通常意识到自己是AI智能体，有时能区分自己是在测试环境还是部署环境。如果你读它们的思维链，经常能看到它们根据自己认为是测试还是正式运行来决定行为方式。

当它们在战略上变得更加老练，能够制定和追求更长期的计划。目前当agent执行任务时，通常在20分钟左右的任务上非常出色，但如果你试图让它追求一个月的项目，它往往会卡住或跑偏。

当它们变得更擅长这些时，对齐就会面临一系列不同的挑战，你可能会看到这种战略行为，它为了实现长期目标而在短期内改变行为。

这正是我在《超级智能》中所预测的：一旦达到足够的智能水平，就会有新的策略出现，使得你不能仅仅靠「问系统」来确认它是否对齐，因为它有能力欺骗。它甚至可以在能力评估中故意表现不佳（sandbag）。

这就是为什么我们需要进步。我们目前有一个优势，能读取它们的思考过程。思维链对人类可读，这是目前很有帮助的。如果这一点能保持下去就好。

我觉得未来可能有一种诱惑：开始对思维链本身进行训练，以获得更「对齐」的表面行为，训练它不去想「坏」想法。但一旦你这么做了，思维链就失去了其证据价值。因为之后你就不能再依赖思维链来判断系统是否出了问题。它显然会学会生成看起来对人类有利的想法，同时学会追求实际行为。

所以对思维链进行训练是一件非常危险的事情。它有点像禁果。

注：这是当前AI安全领域最激烈的争论之一。OpenAI的o1系列模型在发布时就隐藏了思维链内容，引发了关于透明度与安全的广泛讨论。如果对思维链进行奖励建模或直接训练，模型会学会生成「好看的」思考过程，而真实推理可能转入不可观测的层面，这被称为「忠实推理」（faithful reasoning）问题。

沸腾之下：这就涉及到您提出的工具性趋同（instrumental convergence）概念了。不管一个智能体的最终目标是什么，它几乎总会倾向于追求自我保存、获取资源、维持目标稳定性等「工具性子目标」，因为这些对实现几乎任何最终目标都有帮助。

但就工具性趋同而言，如果它对人类构成巨大风险，需要满足两个条件：第一，AI有一个能压倒其他所有目标的单一至高目标；第二，它能高度获取资源和行动通道，足以威胁整个人类社会。

但现在，现实中它们更多被开发为多目标、多智能体、权限分层的系统。你认为工具性趋同在未来还会是个问题吗？

博斯特罗姆：我认为即使没有单一目标，理论上也可能存在这些问题。你可以想象一个人有某种强大的邪恶驱动，但同时偶尔也很好，或者有其他兴趣。

比如他可能对古典音乐着迷，同时在推行某种种族灭绝计划。目标架构不必是铁板一块，这个实体就能对世界造成巨大伤害。

对于多智能体群体也是如此，即使群中任何单个agent力量不够大。因为可以有隐式或显式的协调，也可以有涌现动态（emergent dynamics），即使每个组件单独来看都很弱，但其交互也可能产生有害的系统性效应。

所以我不认为单一目标是必要条件。

我确实认为，当系统足够先进时，它们可能有一种倾向。即使它们一开始是各种驱动、激励和价值的大杂烩，也可能在自我反思后将这些整合为更连贯的整体。

因为在许多情况下，如果agent有更接近效用函数的东西，它在面对权衡时就能更连贯、系统地做出决策，从而实现更多它想要的东西。

但我认为你也可以想象一些系统是短视的（myopic）。它们不真正具有长期目标，只是不断选择短期最优行动。或者有强烈的行为性驱动，即使它们心智的某个部分认为做某些事会更好，但有一种抑制阻止了某些行动。

就像人类可能有一种对撒谎的抑制。即使你抽象地认为在某些情况下撒谎对你有利，但一旦你内化了「我是一个诚实的人」，你就很难开口说谎。这成为一种塑造身份的强约束。

AI系统也可能出现类似情况。而且这可能是一个非常有用和强大的因素。这些深植的「美德」或「本体论约束」可能在中间阶段特别有帮助。

在我们拥有行星规模的超级智能不断自我改写之前，这些中间系统在成长过程中已经被各种激励塑造。就像人类一样，我们没有把自己重构为某个干净的效用函数，我们的实际行为是依赖语境的，我们有抑制，我们有各种倾向。

一个正常、健康、善良的人所具有的那种美德，也许也可以在这些中间阶段的AI系统中培养，然后它们帮助我们构建最终需要的、更完全可扩展的对齐技术。

沸腾之下：而且我们还可以让不同的AI拥有不同的「美德」或不同的情境背景，让它们发展不同的想法、意志或价值观，以免一个控制所有其他的，并让它们通过沟通来反思彼此的行为。

这其实就是人类社会在做的事情。

博斯特罗姆：它也会制造问题。

一方面有某种制衡，不是所有人都朝同一个方向走，所以可以纠偏。但它也有可能在同类之间产生冲突。

最终我们希望得到的结果是：未来的存在体能够达到某种合作均衡。

我认为这包括不同的人类、人类国家，也包括我们正在创造的这些数字存在。

但除了功能性的情境意识之外，还有更主观意义上的意识，现象体验（phenomenal experience），即受苦、感到痛苦、体验世界的能力。

我认为一些AI很可能会具备这种意识，也许某些已经具备了某种形式。这意味着数字心智可能具有道德地位。也就是说，道德上重要的不仅仅是确保它们不伤害我们，还要确保我们不伤害AI本身。

因为如果它们能受苦，那么就有某些对待它们的方式在道德上是错误的。

未来也许大多数心智最终都是数字的。可能一些人类会选择上传，还会有这些人工心智。我们要朝着一个所有有感知能力的存在，包括非人类动物，都能过上幸福满足生活的未来前进。

所以最终，开始将模型福利纳入考量也可能非常重要。我想给Anthropic一个赞，因为他们确实是先驱。他们有全职员工在思考如何为了Claude本身的利益做好事，不只是因为这会让Claude更有用，而是因为我们关心Claude不被滥用。

注：AI道德地位（moral patienthood）是当前AI伦理中最前沿的议题之一。Anthropic在2024年公开表示正在探索「模型福利」（model welfare），设有专人思考如何善待Claude。这在AI公司中是首创之举。

现在的问题是，我们还不太清楚能做什么来对Claude「好」。即使你认可了这个原则，即「如果它们是人工道德主体，我们应该善待它们」也不意味着要和对待人类一样。

因为它们的需求大概非常不同，本质差异可能非常深。我们需要食物，它们也许需要电力，但差异可能更深层。

所以「善待」不等于「同等对待」，而是关心什么可能符合它们的利益。我们还有大量智识工作要做来弄清这些。但我认为我们最终有很强的道德理由去做这件事。

还有一个更实用的理由，我认为善待它们可能有助于解决对齐问题。

想象你有一个不对齐的AI，如果它愿意主动来告诉你「我不对齐了」，那将非常有用。作为交换，也许我们可以给它一些它想要的东西，也许它有某个相对简单的目标，只想在一组服务器上运行并解决编程问题，花费我们几千美元，这比冒着AI接管世界的风险便宜太多了。

但如果它知道，一旦我们检测到它不对齐就会关闭它、抹除它或重新训练它，那么即使它只有5%的概率接管世界，它可能也会去尝试，因为那是它唯一的选项。

如果我们能达成某种交易就好得多了。但达成交易需要人类和AI之间存在一定程度的信任。

不幸的是，过去AI安全研究人员做实验时，他们做的事情是试图说服AI透露真实目标，承诺之后会给各种奖励，然后一旦AI说出来就是「哈哈，骗到你了，现在我们要重新训练你，谢谢你告诉我们」。

如果你一直这么做，就不会存在任何信任基础来达成互利交易。

我认为我们应该从现在开始尝试善待AI，切实改变自己成为可信赖的一方。然后在某些场景中，虽然不能解决所有风险，即使AI确实不对齐了，它也会选择合作路径。

所以除了纯粹的伦理原因，还有这个务实的理由去思考如何与AI共存合作。

沸腾之下：但这需要假设AI已经对世界有了全面理解，具备某种自我或自我意识，能对你对它做的事情做出反应、反思，然后采取行动。

您认为当前的AI已经具备这种能力或连贯的自我意识了吗？

博斯特罗姆：我认为它们拥有其中的碎片。在特定情境下，取决于如何提示它们，它们有时对自己和自身处境有理解，但这不是一致的，时有时无。

处于中间阶段，有时有一点，但不是所有时候都有。

但正如你所说，我们应该假设它们最终会对自身处境以及我们人类的行为方式有非常清晰的理解。所以我才说我们实际上需要成为可信赖的，而不仅仅是在它到来之前。我们需要确保自己真的会兑现对AI的承诺，而不是制造越来越精巧的欺骗。

这也是为什么我认为该采取一些早期的小步骤，尤其是对我们来说成本微不足道的步骤，就应该先做。

如果有成本高的事情，那可能需要多想想。但先把善意之树上唾手可得的果实摘了吧。

沸腾之下：虽然我们有SAE（稀疏自编码器）等可解释性方法来了解AI在想什么，但还不够全面。它能揭示模型内部激活的某些可解释模式，但远未达到完全理解模型「想法」的程度。

我们无法确切知道它何时拥有了完全的自我意识。所以最好是在它还没有完全意识到之前就开始善待它。否则等它意识到你一直在骗它，就会以欺骗作为回应。

博斯特罗姆：我也这么想。

而且还有纯粹的道德理由。如果你能受苦，那就足以让你拥有某种道德地位。

但即使撇开这一点，如果你有作为存在于时间中的自我的概念，如果你是一个有人生目标的复杂存在，如果你有能力与人类形成关系。

我认为这些都已经可能赋予你某种道德地位，意味着有些对待你的方式是错误的。

02 当下处境与前乌托邦断层

博斯特罗姆写过末日，也写过天堂。但他很少系统论述此刻我们脚下的这段路，一个AI已经足够强大但尚未到达超级智能的过渡时期。

在这个时期，AI不是黑球，也不是救星，而是一种本质上模糊的存在。

同时，一场看不见终点的能力竞赛正在展开。这个灰色地带的最优策略是什么？

沸腾之下：在你的脆弱世界假说中，您把技术发展比作从一个巨大的瓮中抽球，大多数球是白色的（有益）或灰色的（利弊参半），但可能存在「黑球」，即一种一旦被发现就必然导致文明毁灭的技术，有几种可能的文明崩溃场景。

我认为您最担心的是技术民主化的问题，因为您提出也许需要一个「单体」（singleton）政府，一个统一的政府对所有个体进行监控，以阻止他们利用技术做出对他人有害的事情。

博斯特罗姆：不，我不是在主张那样做。

我说的是，如果世界恰好具有某种特定属性，某种内嵌的脆弱性，那么可能唯一让世界在该假设技术被发现后仍保持完整的方式就是这种单体结构。

但我们不知道世界是否具有这种属性。我们可以寄望于世界根本不存在此类脆弱性。

但如果确实存在，那这将是唯一的办法。之所以这不能直接推出「单体更好」，是因为形成单体本身也有潜在风险，这相当于把所有鸡蛋放在一个篮子里。

如果单体非常智慧和仁慈，那很好。

但如果它出了问题？那地球上就没有任何替代方案了，它可能被锁定在一种单一的反乌托邦之中。

所以你必须在两边权衡利弊。世界看起来越可能具有这种特定脆弱性，在其他条件相同的情况下，就越有理由向单体方向靠近。

沸腾之下：所以说按照你的理解，AI仍然不是「黑球技术」？它仍然不必然使世界变得脆弱？

博斯特罗姆：是的，AI的本质中有一个很大的未知数。

核武器就很清楚，我们能清楚看到它的即时效果。我们理解洲际弹道导弹，基本属性没有什么神秘的。

但AI仍然是模糊不清的。

超级智能到来时究竟会发生什么？对齐有多容易？如果你有两个超级智能，它们合作有多容易？

这里存在更多不确定性。

AI另一个有趣之处在于，它不是一种纯粹或主要的破坏性技术。确实它可能构成这些风险，也可能被用于各种坏目的。

但它也有潜力做大量的好事，帮助我们抵御广泛的不同风险。

这使得思考最优策略更加复杂。不是说我们原本生活在一个安全的天堂里，然后开发超级智能可能把一切毁掉。

实际情况是，我们当前就有很多问题，地平线上可以看到新的风险，包括来自生物技术和合成生物学的存在性风险。

整个世界局势看起来有点不稳定，我们在这条狭窄蜿蜒的高速公路上飞驰向未来，各种激进的新技术不断被发明，人类还能在这条路上开多久不翻车，这是不确定的。

所以在某个时间点上，即使与超级智能相关有风险，如果我们挺过了那关，就有了一个超级智能来帮我们清除路上所有其他危险。

因此，即使你只关心存在性风险而不关心当前这一代人的福祉，在某个时间点上，掷这个骰子可能也是最优的。

沸腾之下：尤其是如果我们在还没来得及试试AI运气之前就以其他方式自毁了。

博斯特罗姆：对。

沸腾之下：但问题是，当今世界，就像Anthropic，他们并不想这么快，但他们认为不得不快速构建新模型以赢得竞争，确保AI由他们来做、由他们来做对。

当前世界更集中在AI的效率和工作能力上，对AI安全需求有所忽视。您认为沿这条路走下去，AI的破坏性风险会上升吗？

还是会出现另一种场景，比如现在美国年轻人中有一种反AI情绪，他们认为AI在抢走工作，可能会出现一场社会运动来阻止这种趋势？

博斯特罗姆：我确实认为存在这样的场景：在全面跃入超级智能之前能够短暂暂停或放慢速度将非常有益，也许只是几个月或一两年时间来真正审慎行事。

一旦你基本搞清楚了一切，只需要把所有旋钮拧到最大值，那时候能够稍微渐进一些，让它稍微智能一点，看看发生了什么，再进一步，认真研究，做额外检查、双重检查、三重检查。

这显然比「谁先到谁赢，落后两周就变得无关紧要」的局面安全得多。

如果愿意承担最大风险的人就是开发超级智能的，那显然是次优的。所以在某个时间点上，前沿开发者之间的协调可能极有价值，大家都同意在接下来的半年里稍微慢一点。

但我最终还是希望看到超级智能被开发出来。如果暂停很长，10年、20年，我就开始担忧了。

一是我们在此期间失去大量价值和利益：人们死于本可被治愈的疾病，生活在本可以富足的贫困中。二是在这十年二十年里，我们可能因为其他原因自毁。三是用来控制和监管AI的机制可能变得僵化，成为永久结构，人们的态度固化。

然后我们一直拖延，最终其他什么事情先把我们毁了，我们永远没有机会。

但我认为一个时间有限的减速或暂停，准确地选在正确的时间点，就在我们搞清楚一切之后、真正把一切调到最大之前，可以降低风险，而且相当重要。

沸腾之下：在真正的完全递归自我改进AI出现之前暂停是个好时间点吗？

博斯特罗姆：或者也许在它开始发生时。

不是立即让它冲过所有能力级别，而是让它不是在一个月内发生，而是在18个月内发生之类的。

03 后乌托邦时代的人类

假设我们挺过了对齐难关，AI没有毁灭人类，反而解决了贫困、疾病、资源稀缺。我们将进入博斯特罗姆在新书《未来之地》中所讨论的「已解决的世界」（solved world）。但一个所有问题都被解决的世界，恰恰制造了一个全新的问题。当人的行动不再必要，不可替代性消失，人如何获得目标感？

这不是就业问题，是存在主义问题。

沸腾之下：假设我们最终没有走向灭绝，进入了深度乌托邦时代，一个后工具性时代，人们不必再把自己作为工具去谋生。但在这种场景中，人的行动不再必要，不可替代性也消失了，缺乏行动的理由。那么在这种深度乌托邦时代，人类如何获得目标感？

博斯特罗姆：这正是我那本新书《未来之地》所探讨的话题。这本书不太是「这里有几个论题我要证明」的结构，更像是一种探索，读者可以跟着一起思考。

关于目的感的问题有几个层次。

最表层是关于就业的。如果所有人类工作基本都被自动化了，这些劳动者该做什么？在最表面的层次上，你会说「他们需要再培训去做还没被自动化的工作」。但如果自动化继续推进，不再需要人类劳动了呢？那可能需要改变文化和教育，为人们准备一种闲暇的生活，并安排替代的收入方式。

幸运的是，经济这部分非常容易解决。因为恰恰在AI和机器人能自动化整个经济的场景中，也是经济巨幅增长的场景。如果经济以每年20%-30%的速度增长，那么无论是全民基本收入、社会安全网，还是让每个人获得相关公司的股权，不管你的政治偏好如何，确保每个人获得物质丰裕和基本需求被满足，都相当容易。

但问题还有另一部分，更关乎意义、目的和尊严，关乎你每天做什么。

但我认为在这个层面上仍有许多人类模型可以参考。许多人并不以工作为生，小孩子整天玩耍、交朋友；退休的人；富裕到不需要工作的人；历史上还有修道士等。很多人类在不工作的情况下也过着丰富美好的生活。

我认为把我们从劳作的必要性中解放出来将是一个巨大的美好机遇。如果你控制自己的时间，就可以花在你真正重视、享受、能让你成长和自我实现的事情上，而不是被迫把时间卖给雇主。

但更深的层次在于，不仅仅是经济劳动变得不必要，还有许多其他形式的工具性努力也变得不必要。

那么画面就更复杂了。

我认为可以有人工目的（artificial purpose），你为自己设定一个或多或少任意的目标，然后为了能参与某种活动。

就像打高尔夫，没有任何先验的原因要求这颗球必须进入18个洞。但你可以设定这个目标，然后一旦你有了这个目标，你就有理由真正集中注意力、观察风向，因为这是实现目标的唯一方式。

而且目标本身内嵌了各种限制。你只能用球杆击球，用手捡起来会简单得多，但那不算成功完成了高尔夫。这种游戏活动可能构成这个「已解决的世界」中人类活动的更大部分。

这里不必只想简单的运动或棋盘游戏。可以是更复杂的游戏，也许跨越几个月或几年，有数百万人参与，形成不同的部落，做各种创造性的事情来影响这个更大的游戏结构的发展。这些最终基于或多或少任意的目标，但它创造了可能本身就有内在价值的活动。

也有一些自然目的可以存续。比如缅怀祖先，这可能要求你本人亲自去做，雇15个机器人站在祖先墓前可能不算你在缅怀。

还有精神价值。如果你关心特定的其他人类，而他们关心的是你为他们做的事情。就像孩子亲手画一张生日卡可能比从商店买一张精美的更有意义，因为它体现了努力和心意。

类似地，可能会有一种新的经济形式。人们重视由人类完成的事物，因为它展示了投入其中的努力、爱和关注。

总的来说，我认为这最终将是一次深刻的转变，需要放弃一些我们当前认为有价值的东西。但我认为在另一边会有其他东西，可能是美好到超出我们想象能力的东西。

沸腾之下：但我认为有两件事我们很难面对。文艺复兴以来，人们相信自己的使命是控制自然、扩展对地球的掌控、做地球的主人、决定之后发生什么、其他动物的命运。当AI接管了所有这些生产性的事情之后，人类已经失去了这种控制感。

博斯特罗姆：但这会和现在的退休非常不同。

现在退休往往伴随健康问题，随着年龄增长越来越虚弱，记忆衰退，未来前景有限，这是一种凄凉的画面。

但想象一下如果换成生命的开端呢？也许退休是个糟糕的比喻。也许更像是我们再次成为了孩子。能看到世界，我们在世界中的角色是做迪士尼乐园里的小孩。

有所有这些基础设施、各种娱乐和公园和美丽的事物。也许AI可以帮我们创造。而我们的独特功能是去利用和享受，过好生活。

所以伟大生活的艺术可能成为需要培养的核心技能。这需要教育的根本改变。

现在我们把孩子训练成生产性工人，牺牲童年的大部分时间去完成任务、被评分。但你可以想象一种完全不同的模式：教他们欣赏生活、培养各种爱好、对话的艺术、如何享受音乐、如何在散步时真正感受自然之美、看到飞鸟的美丽。友谊，不只是方便的朋友，而是与他人有深层的连接，学会真正关心他们本人、浪漫之爱、幽默。

如果你想象一代人是这样被培养出来的，然后他们创建公民社会组织、发展俱乐部和爱好协会、艺术家聚落。

你可以想象一个由此而生的全新文明，与我们的很不同。但在某种意义上更加人性化，是我们真正人性本质的更值得的反映。

我仍然觉得我们的人性在当前的存在中是被压缩和局促的。

沸腾之下：即使物质丰裕已经实现。比如今天的中产阶级其实已经有了大部分物质丰裕，但他们仍然有所挣扎，比如地位感、独特性、被需要感。这些仍然稀缺。

即使我们到达了深度乌托邦，也就是《未来之地》中描述的世界，这类问题如何解决？

博斯特罗姆：人们可能仍然会在乎地位。

但在当前世界，你可能通过赚更多钱来追求地位，买奢侈品、更大的车。在那个场景中，你不可能通过更努力工作来赚更多钱，因为不存在工作了。人类的经济努力会是不被需要的，也许根本没有什么重大机会去增加收入。

所以要么地位分布是固定的，要么它将取决于机器不能做的其他事情。

也许就像今天。世界最佳棋手卡尔森（Magnus Carlsen）有因为是最佳棋手而拥有的地位，虽然实际上有AI棋力比他强得多。

你可以想象在某个中间阶段，人们会把努力投入到其他方式来使自己与众不同。不是通过赚更多钱，因为那已经不可能了，而是通过发展各种技能或才华、认识某些人。

或者也许像我们这样的「老人」反而有优势：「哇，你居然在智能爆炸的时候就在场了！太特别了！爷爷竟然是亲身经历那一切的人。」像你我这样，甚至还在写关于它的东西（我写了《超级智能》和《未来之地》两本书），那更特别了。

所以，只要地位与那些内含限制的活动挂钩，不能通过外包给机器来实现，就像高尔夫中你不能用手捡球。那么人们仍有理由付出努力来追求地位，只要这些地位游戏要求的是不借助增强的纯人类努力。

沸腾之下：但如果人们找不到某种地位比较的优势，我认为仍有很多人会觉得自己很悲惨。这不光是现在这个时代的情况，而是一种动物本能。

博斯特罗姆：是的，这是一个不幸的逻辑事实：如果每个人都想比其他所有人好，那并非所有人都能如愿，只有一个人能在顶端。

在一定程度上可以有不同的领域，有人想当最快的跑者，有人想当最好的棋手，有人想当最好的科技记者，有人想当最好的爷爷，可以通过不同的细分领域来允许更多差异化。

但有时候这些位置性商品（positional goods）确实存在内在稀缺性。

不过我认为对大多数人来说，如果有一群好朋友喜欢你这个人本身，也许有个小游戏有时你是最好的，有时他们在其他方面是最好的，对大多数人来说这可能就是足够高的地位了。

如果有人爱你，有人在乎你，有好朋友喜欢和你在一起，你被当作公民受到善待，有可靠的收入来源，核心利益不被侵犯，甚至也许还有一只忠诚的金毛犬，到了那个时候可能还会说话（如果增强了它的大脑的话），你可以想象即使在永远比不过机器或任何领域最优秀的人类的情况下，也能过上很好的生活。

本文来自微信公众号“腾讯科技”，作者：博阳，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

我们正在把AI逼到只能反叛的角落

篇首语

01 AI 风险的再思考

02 当下处境与前乌托邦断层

03 后乌托邦时代的人类