林俊旸推荐,Anthropic研究者自白:如何成为一位优秀研究者?
咱们 AI 领域,研究者既是一个身份,也是一种幻觉。
很多人以为自己在做研究,其实只是在追论文、追热点、追大厂的发布会……看起来很忙,实则在原地踏步。
近日,Anthropic 研究者 Vivek Nair 发布了一篇 𝕏 长文,分享了他对于如何成为一位优秀研究者的见解。
原文地址:https://x.com/itsreallyvivek/status/2064686372737454155
他指出,真正的研究能力从来不是靠追热点追出来的,而是由一系列可被刻意训练的小技能叠加而成的:怎么选题、怎么读文献、怎么写作、怎么加速实验循环,每一条都有具体的方法,每一条都踩过真实的坑。
这篇文章没有鸡汤,只有干货,读完你可能会觉得有点刺痛;因为他说的,正是我们大多数人从未认真想过的问题。
这篇文章引发广泛关注,很多研究者也参与讨论。
Qwen 前负责人林俊旸也转发分享了一下。
下面我们就来详细看看这篇文章:
真的没有人教你做研究。你会得到一张办公桌,一个别人挑选好的问题,以及一个模糊的指示,要求你产出一些新颖的东西。因此,大多数人通过他们能看到的东西(即论文、帖子和公告)对这份工作进行逆向工程。
他们最终学到的是如何看起来像一个研究者,并未学到如何真正成为一个研究者。
真正的研究能力是由一堆较小的技能叠加而成的,其中几乎每一项技能都可以被刻意训练。
挑选你自己的问题
理查德·汉明(Richard Hamming)在贝尔实验室有一个习惯,这让他在午餐时很不受欢迎。他会问坐在他附近的人,他们那个领域的重要问题是什么。接着他会问,为什么他们没有在研究这些问题。于是人们纷纷换桌子。
Richard Hamming(1915-1998)是美国数学家、计算机科学先驱,长期任职于 Bell Labs。他最著名的贡献是提出了汉明码(Hamming Code)和汉明距离(Hamming Distance),奠定了现代纠错编码与数字通信的重要基础,使计算机和通信系统能够检测并纠正数据传输中的错误。除了技术研究外,Hamming 还以其关于科研方法论的思考闻名,其演讲《You and Your Research》至今仍被广泛传播,被许多科学家和工程师视为关于如何开展重要研究的经典作品。
这个问题令人刺痛,因为我们大多数人都拿不出好的答案。我们不去选择问题,只会吸收它们。我们从导师那里,从某个大实验室上个季度宣布的内容里,从大家本周都在转发引用的那篇论文里吸收问题。
吸收来的问题的麻烦在于,你只掌握了结论,却缺乏推理过程。
你知道某个著名的实验室关心某个方向。你不知道原因,不知道他们期望发现什么,也不知道什么会导致他们放弃这个方向。当他们转换研究方向时,你会在一年后才发现。而且在一个已经很流行的问题上,你正与一千个起步更早、拥有比你更多算力的人同台竞争。
约翰·舒尔曼(John Schulman)关于 ML 研究的指南将这项工作分为两种模式。
http://joschu.net/blog/opinionated-guide-ml-research.html
第一种模式里,你阅读文献并寻找可以改进的地方。另一种模式下,你选择一个你真心希望存在的结果,然后反向推理出所需的实验。
他主张第二种方式。其背后的深层原因是这种方式能够创造出原创性。一个你真正关心的目标会将你拖入没有任何综述论文涵盖的领域。
与此同时,品味常被讨论得像是一种天赋。但它的表现更像是一块肌肉。在你运行每个实验之前,先预测它的结果。遮住一篇论文的结果部分,仅根据方法来猜测数据。记下本月发布的哪些内容在 2 年后仍然重要,以后再来检查你的预测命中率。一次预测加上一次纠正,重复几百次,这就是每一个优秀模型被训练出来的方式。你大脑里的那个模型也不例外。
升级你的输入
共享的阅读清单会产生共享的想法。如果你的信息来源是 arXiv 的趋势页面,加上那些在群聊过滤后幸存下来的内容,你必然会与其他人同时得出相同的结论。这会让这些结论几乎毫无价值。
旧资料的价值被严重低估了。这个领域总是延迟重演它自己的过去:混合专家模型可追溯到 1991 年,LSTM 可追溯到 1997 年,反向传播在 1986 年成为主流。
理查德·萨顿(Rich Sutton)在 2019 年大约用了一千字写下了「苦涩的教训」。它比长度是其十倍的综述文章更能准确预测该领域的发展轮廓。
http://www.incompleteideas.net/IncIdeas/BitterLesson.html
克劳德·香农(Claude Shannon)在 1952 年做了一场关于创造性思维(Creative Thinking)的演讲。他的开场动作是将一个问题缩小到几乎微不足道的程度,解决这个极小化版本,然后再将难度逐一引入。这一个技巧将帮助你突破障碍,其效果远胜任何现代的生产力建议。
香农
知识的广度与深度同样重要。可解释性毫无顾忌地从神经科学中借鉴内容。评估设计就是穿上了实验室外套的机制设计。如果你对 GPU 实际如何移动内存有一种实践层面的认知,你就能在基准测试结果出来之前,判断出哪些架构论文注定会失败。此外,诚实的统计学可能是 ML 中最罕见的技能。在这里,许多发表出来的所谓严谨研究,只是一种带有误差棒的虚假氛围。
还有一件事。去阅读论文本身,别去读总结它的帖子。附录才是真正隐藏关键细节的地方。而且,局限性部分通常是整篇文档中最诚实的一段。
写下一切
保罗·格雷厄姆(Paul Graham)指出,一个想法在你试图用语言表达它之前,都会感觉已经完全成型。纸面书写会发现你大脑掩盖住的漏洞。比如你从未测试过的假设,其实缺乏连贯性的步骤,以及两个暗中相互矛盾的主张。
费曼法则(Feynman's Rule)是,你必须避免愚弄的第一个人就是你自己。因为你是最容易被当作目标的。写作是有史以来发明的最廉价的防御手段。
费曼
达尔文走得更远,并使其程序化。任何与他的理论相悖的事实都会被当场写下来。因为他发现自己的记忆删除不利证据的速度,比删除有利证据的速度快得多。
你的记忆对你那些失败的实验也会做同样的事情。保持记录的习惯:假设、设置、期望、结果、更新后的认知。重新阅读上个月的记录会让你感到谦卑,这是任何审稿人都无法比拟的。
然后将其中一些内容公之于众。奥拉和卡特关于研究债务的文章提出,各个领域都因为未被消化的想法而窒息。清晰的解释不仅是一项服务工作,它就是一项真正的贡献。今天许多从事可解释性研究的人是通过易读的帖子发现这个领域的,他们并未通过会议论文入门。大量的公开写作也可以作为你能拥有的最强资历。因为它是你思考方式的一份无法伪造的样本。
收紧反馈循环
关于 Alec Radford 的故事很少涉及某一次单一的天才灵感。这些故事往往关乎数量。每天更多的运行次数,每周抛弃更多的错误想法,以及一个比任何人都更新得更快的现实模型。这才是真正的游戏规则。研究的速度主要取决于你发现自己犯错的速度。
这使得开发工具成为了一项顶级的科研活动。启动一次运行应该只需要一条命令。绘制结果图表应该只需要多加一条命令。每一个实验都应该能从其配置文件中复现。比较两次运行应该只需要几秒钟,绝对不需要花一个下午去翻找历史记录。
Karpathy 训练神经网络的秘诀中有一个步骤,其回报百倍于投入:在大规模训练之前,先在一个单批次数据上过拟合。只要 30 秒的时间,你的一半 bug 就会消失。缩小一切规模直到成本低廉,把一切弄正确,然后再消耗算力。
Karpathy
并且,抛弃工程在这里只是次要角色的想法。在前沿领域,这两项工作已经融合。能够建立测试框架、评估机制和数据流水线的研究者,才是其假设真正能被测试的人。其他所有人都在排队等待。
盯着输出结果
一条下降的损失曲线并不能算作分析。它只是一种安慰。你的实验所释放出的信息远超你的消耗量。比如记录、失败案例,以及分布中奇怪的尾部现象。其中大部分信息都未被阅读,死在了日志文件夹中。
Karpathy 的秘诀在编写任何训练代码之前就开始了。他会花上几个小时手动处理原始数据。大多数 ML 的 bug 都存在于数据中,并且它们会悄无声息地失败。没有任何东西会崩溃。你得到的仅仅是一个平庸的模型,以及一个关于其原因的错误理论。
吴恩达十多年来一直在教授同样并不光鲜的招数,因为没有什么能打败它。挑出一百个失败案例,把它们全部看一遍。将它们分门别类,然后集中攻克最大的一类。它对模型有效,对评估机制也同样有效。如果你从未阅读过某个基准测试的记录文本,那你就根本没有真正理解这个基准测试。一份真正奇怪行为的记录文本教给你的东西,将比小数点后下一位的准确率带来的多得多。
有目的地漫游
你的第一个子领域只是一次时间的偶然,所以请坦然面对这一事实。在决定你深耕的领域之前,花点真功夫去了解可解释性、评估、RL 和系统方向。在这个领域里的某个角落,你特有的那种古怪会成为一种不公平的优势。找到这个角落的唯一方法是在几个不同的地方交学费。没人能免交这笔学费。
首先运行每个想法的即用即抛版本,让它们中的大多数早早夭折。极其严苛地调整你的基准线。因为 ML 的坟墓里满是那些在适当调整的基准线面前烟消云散的成果。而审稿人是你认识到这一点的最糟糕人选。不断进行消融实验,直到你弄清楚究竟是哪个组件带来了实验结果。起作用的通常只有一个组件。而且它往往并不是出现在标题中的那个。
广度也是一种保险。所有的子领域都会饱和。这种情况通常发生在它们在推特上达到顶峰之后。那些能在这些过渡期继续产出成果的人,正是那些早已经熟悉邻近领域情况的人。
找到你的同路人
汉明注意到,那些最终完成重要工作的人身上存在一种规律。办公室门紧闭的同事在任何一年里都能完成更多的工作。而办公室门敞开的同事则完成了那些真正重要的工作。因为不时的打扰带来了关于这个世界到底需要什么的信息。你的敞开之门可能是一个收件箱。请保持它的畅通。
在研究中,慷慨带来的复利效应是无与伦比的。复现一个结果并发表你的发现。发布你为自己构建的工具。用平实的语言解释一些复杂晦涩的事物。几个月后,回报会以意想不到的方式到来。比如一次合作、一次引用,或者一个你原本无法申请到的职位。把你那些半成型的想法也公之于众。因为在时间线上犯错的成本,远比在正式出版物中犯错的成本要低。如果有一个合作者能在你为一个糟糕的想法投入 3 个月时间之前提醒你,那他的价值将胜过算力。
这种关系是买不到的,只能通过努力去赢得。
长期博弈
巴斯德说过,机会总是留给有准备的头脑。
法国科学家、微生物学之父路易·巴斯德(Louis Pasteur)
汉明在此基础上建立了一整套职业哲学:知识和生产力像利息一样产生复利。每天积累的优势孤立来看显得微不足道。
你阅读的内容、你记录的事物、你的循环运行得多快,以及你与谁辩论。给这些习惯几年的时间,它们会造就出外界看来如同纯粹凭借运气的职业生涯。在你觉得有必要之前,尽早开始积累复利。
未来的你早已明白,这其实是成本最低的部分。
本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:Panda,36氪经授权发布。