林俊旸力荐！Anthropic研究者自白：怎样成为优秀研究者？

真正的研究能力，是这样练出来的

咱们 AI 领域，研究者既是一个身份，也是一种幻觉。

很多人以为自己在做研究，其实只是在追论文、追热点、追大厂的发布会……看起来很忙，实则在原地踏步。

近日，Anthropic 研究者 Vivek Nair 发布了一篇 𝕏 长文，分享了他对于如何成为一位优秀研究者的见解。

原文地址：https://x.com/itsreallyvivek/status/2064686372737454155

他指出，真正的研究能力从来不是靠追热点追出来的，而是由一系列可被刻意训练的小技能叠加而成的：怎么选题、怎么读文献、怎么写作、怎么加速实验循环，每一条都有具体的方法，每一条都踩过真实的坑。

这篇文章没有鸡汤，只有干货，读完你可能会觉得有点刺痛；因为他说的，正是我们大多数人从未认真想过的问题。

这篇文章引发广泛关注，很多研究者也参与讨论。

Qwen 前负责人林俊旸也转发分享了一下。

下面我们就来详细看看这篇文章：

真的没有人教你做研究。你会得到一张办公桌，一个别人挑选好的问题，以及一个模糊的指示，要求你产出一些新颖的东西。因此，大多数人通过他们能看到的东西（即论文、帖子和公告）对这份工作进行逆向工程。

他们最终学到的是如何看起来像一个研究者，并未学到如何真正成为一个研究者。

真正的研究能力是由一堆较小的技能叠加而成的，其中几乎每一项技能都可以被刻意训练。

挑选你自己的问题

理查德·汉明（Richard Hamming）在贝尔实验室有一个习惯，这让他在午餐时很不受欢迎。他会问坐在他附近的人，他们那个领域的重要问题是什么。接着他会问，为什么他们没有在研究这些问题。于是人们纷纷换桌子。

Richard Hamming（1915-1998）是美国数学家、计算机科学先驱，长期任职于 Bell Labs。他最著名的贡献是提出了汉明码（Hamming Code）和汉明距离（Hamming Distance），奠定了现代纠错编码与数字通信的重要基础，使计算机和通信系统能够检测并纠正数据传输中的错误。除了技术研究外，Hamming 还以其关于科研方法论的思考闻名，其演讲《You and Your Research》至今仍被广泛传播，被许多科学家和工程师视为关于如何开展重要研究的经典作品。

这个问题令人刺痛，因为我们大多数人都拿不出好的答案。我们不去选择问题，只会吸收它们。我们从导师那里，从某个大实验室上个季度宣布的内容里，从大家本周都在转发引用的那篇论文里吸收问题。

吸收来的问题的麻烦在于，你只掌握了结论，却缺乏推理过程。

你知道某个著名的实验室关心某个方向。你不知道原因，不知道他们期望发现什么，也不知道什么会导致他们放弃这个方向。当他们转换研究方向时，你会在一年后才发现。而且在一个已经很流行的问题上，你正与一千个起步更早、拥有比你更多算力的人同台竞争。

约翰·舒尔曼（John Schulman）关于 ML 研究的指南将这项工作分为两种模式。

http://joschu.net/blog/opinionated-guide-ml-research.html

第一种模式里，你阅读文献并寻找可以改进的地方。另一种模式下，你选择一个你真心希望存在的结果，然后反向推理出所需的实验。

他主张第二种方式。其背后的深层原因是这种方式能够创造出原创性。一个你真正关心的目标会将你拖入没有任何综述论文涵盖的领域。

与此同时，品味常被讨论得像是一种天赋。但它的表现更像是一块肌肉。在你运行每个实验之前，先预测它的结果。遮住一篇论文的结果部分，仅根据方法来猜测数据。记下本月发布的哪些内容在 2 年后仍然重要，以后再来检查你的预测命中率。一次预测加上一次纠正，重复几百次，这就是每一个优秀模型被训练出来的方式。你大脑里的那个模型也不例外。

升级你的输入

共享的阅读清单会产生共享的想法。如果你的信息来源是 arXiv 的趋势页面，加上那些在群聊过滤后幸存下来的内容，你必然会与其他人同时得出相同的结论。这会让这些结论几乎毫无价值。

旧资料的价值被严重低估了。这个领域总是延迟重演它自己的过去：混合专家模型可追溯到 1991 年，LSTM 可追溯到 1997 年，反向传播在 1986 年成为主流。

理查德·萨顿（Rich Sutton）在 2019 年大约用了一千字写下了「苦涩的教训」。它比长度是其十倍的综述文章更能准确预测该领域的发展轮廓。

http://www.incompleteideas.net/IncIdeas/BitterLesson.html

克劳德·香农（Claude Shannon）在 1952 年做了一场关于创造性思维（Creative Thinking）的演讲。他的开场动作是将一个问题缩小到几乎微不足道的程度，解决这个极小化版本，然后再将难度逐一引入。这一个技巧将帮助你突破障碍，其效果远胜任何现代的生产力建议。

香农

知识的广度与深度同样重要。可解释性毫无顾忌地从神经科学中借鉴内容。评估设计就是穿上了实验室外套的机制设计。如果你对 GPU 实际如何移动内存有一种实践层面的认知，你就能在基准测试结果出来之前，判断出哪些架构论文注定会失败。此外，诚实的统计学可能是 ML 中最罕见的技能。在这里，许多发表出来的所谓严谨研究，只是一种带有误差棒的虚假氛围。

还有一件事。去阅读论文本身，别去读总结它的帖子。附录才是真正隐藏关键细节的地方。而且，局限性部分通常是整篇文档中最诚实的一段。

写下一切

保罗·格雷厄姆（Paul Graham）指出，一个想法在你试图用语言表达它之前，都会感觉已经完全成型。纸面书写会发现你大脑掩盖住的漏洞。比如你从未测试过的假设，其实缺乏连贯性的步骤，以及两个暗中相互矛盾的主张。

费曼法则（Feynman's Rule）是，你必须避免愚弄的第一个人就是你自己。因为你是最容易被当作目标的。写作是有史以来发明的最廉价的防御手段。

费曼

达尔文走得更远，并使其程序化。任何与他的理论相悖的事实都会被当场写下来。因为他发现自己的记忆删除不利证据的速度，比删除有利证据的速度快得多。

你的记忆对你那些失败的实验也会做同样的事情。保持记录的习惯：假设、设置、期望、结果、更新后的认知。重新阅读上个月的记录会让你感到谦卑，这是任何审稿人都无法比拟的。

然后将其中一些内容公之于众。奥拉和卡特关于研究债务的文章提出，各个领域都因为未被消化的想法而窒息。清晰的解释不仅是一项服务工作，它就是一项真正的贡献。今天许多从事可解释性研究的人是通过易读的帖子发现这个领域的，他们并未通过会议论文入门。大量的公开写作也可以作为你能拥有的最强资历。因为它是你思考方式的一份无法伪造的样本。

收紧反馈循环

关于 Alec Radford 的故事很少涉及某一次单一的天才灵感。这些故事往往关乎数量。每天更多的运行次数，每周抛弃更多的错误想法，以及一个比任何人都更新得更快的现实模型。这才是真正的游戏规则。研究的速度主要取决于你发现自己犯错的速度。

这使得开发工具成为了一项顶级的科研活动。启动一次运行应该只需要一条命令。绘制结果图表应该只需要多加一条命令。每一个实验都应该能从其配置文件中复现。比较两次运行应该只需要几秒钟，绝对不需要花一个下午去翻找历史记录。

Karpathy 训练神经网络的秘诀中有一个步骤，其回报百倍于投入：在大规模训练之前，先在一个单批次数据上过拟合。只要 30 秒的时间，你的一半 bug 就会消失。缩小一切规模直到成本低廉，把一切弄正确，然后再消耗算力。

Karpathy

并且，抛弃工程在这里只是次要角色的想法。在前沿领域，这两项工作已经融合。能够建立测试框架、评估机制和数据流水线的研究者，才是其假设真正能被测试的人。其他所有人都在排队等待。

盯着输出结果

一条下降的损失曲线并不能算作分析。它只是一种安慰。你的实验所释放出的信息远超你的消耗量。比如记录、失败案例，以及分布中奇怪的尾部现象。其中大部分信息都未被阅读，死在了日志文件夹中。

Karpathy 的秘诀在编写任何训练代码之前就开始了。他会花上几个小时手动处理原始数据。大多数 ML 的 bug 都存在于数据中，并且它们会悄无声息地失败。没有任何东西会崩溃。你得到的仅仅是一个平庸的模型，以及一个关于其原因的错误理论。

吴恩达十多年来一直在教授同样并不光鲜的招数，因为没有什么能打败它。挑出一百个失败案例，把它们全部看一遍。将它们分门别类，然后集中攻克最大的一类。它对模型有效，对评估机制也同样有效。如果你从未阅读过某个基准测试的记录文本，那你就根本没有真正理解这个基准测试。一份真正奇怪行为的记录文本教给你的东西，将比小数点后下一位的准确率带来的多得多。

有目的地漫游

你的第一个子领域只是一次时间的偶然，所以请坦然面对这一事实。在决定你深耕的领域之前，花点真功夫去了解可解释性、评估、RL 和系统方向。在这个领域里的某个角落，你特有的那种古怪会成为一种不公平的优势。找到这个角落的唯一方法是在几个不同的地方交学费。没人能免交这笔学费。

首先运行每个想法的即用即抛版本，让它们中的大多数早早夭折。极其严苛地调整你的基准线。因为 ML 的坟墓里满是那些在适当调整的基准线面前烟消云散的成果。而审稿人是你认识到这一点的最糟糕人选。不断进行消融实验，直到你弄清楚究竟是哪个组件带来了实验结果。起作用的通常只有一个组件。而且它往往并不是出现在标题中的那个。

广度也是一种保险。所有的子领域都会饱和。这种情况通常发生在它们在推特上达到顶峰之后。那些能在这些过渡期继续产出成果的人，正是那些早已经熟悉邻近领域情况的人。

找到你的同路人

汉明注意到，那些最终完成重要工作的人身上存在一种规律。办公室门紧闭的同事在任何一年里都能完成更多的工作。而办公室门敞开的同事则完成了那些真正重要的工作。因为不时的打扰带来了关于这个世界到底需要什么的信息。你的敞开之门可能是一个收件箱。请保持它的畅通。

在研究中，慷慨带来的复利效应是无与伦比的。复现一个结果并发表你的发现。发布你为自己构建的工具。用平实的语言解释一些复杂晦涩的事物。几个月后，回报会以意想不到的方式到来。比如一次合作、一次引用，或者一个你原本无法申请到的职位。把你那些半成型的想法也公之于众。因为在时间线上犯错的成本，远比在正式出版物中犯错的成本要低。如果有一个合作者能在你为一个糟糕的想法投入 3 个月时间之前提醒你，那他的价值将胜过算力。

这种关系是买不到的，只能通过努力去赢得。

长期博弈

巴斯德说过，机会总是留给有准备的头脑。

法国科学家、微生物学之父路易·巴斯德（Louis Pasteur）

汉明在此基础上建立了一整套职业哲学：知识和生产力像利息一样产生复利。每天积累的优势孤立来看显得微不足道。

你阅读的内容、你记录的事物、你的循环运行得多快，以及你与谁辩论。给这些习惯几年的时间，它们会造就出外界看来如同纯粹凭借运气的职业生涯。在你觉得有必要之前，尽早开始积累复利。

未来的你早已明白，这其实是成本最低的部分。

本文来自微信公众号“机器之心”（ID：almosthuman2014），作者：Panda，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

林俊旸推荐，Anthropic研究者自白：如何成为一位优秀研究者？