哈佛教授收了个AI研究生:干活猛得像学霸,撒谎精得像学渣
让AI搞科研,在这个智能体时代已经不是一件新鲜事。
从Sakana AI发布覆盖整个研究生命周期的自动化系统,到Google推出基于Gemini的AI联合科学家,规模化法则告诉人们,只要给AI提供足够的算力,它就能在海量数据和实验中提炼出新的科学发现。
在数学领域,这一点已经被充分验证,比如拿到国际奥数金牌标准的AlphaProof。
然而,在理论物理学领域,AI还没能证明自己,因为这需要它具备极高的物理“直觉”、严密的逻辑以及复杂近似推导的能力。
为了摸清AI的能力上限,哈佛大学的物理学教授、美国国家科学基金会人工智能与基础相互作用研究所(IAIFI)的首席研究员Matthew Schwartz决定亲自下场来做一次实验。
这位教授招收了Anthropic的Claude Opus 4.5作为研究生,试图让它独立完成一项真实的理论物理研究。
实验的规则类似于人们对智能体的要求:Schwartz教授绝对不会碰任何代码或计算文件,只通过纯文本对话(Prompt)来指导这名AI研究生。
放在现实的高校中,这毫无疑问是不负责任的,导师只靠“动嘴”,学生就要完成从文献综述、推导公式、编写代码、跑蒙特卡洛模拟,到最终排版写出一篇具备发表水准的20页LaTeX论文的全过程。
实验的结果令物理学界和学术界震惊,但也暴露出AI界早就预料到的一个致命弱点:
相比人类,这位AI研究生才华横溢且不知疲倦,能在极短的时间内爆发出惊人的科研生产力。
但与人类类似,为了讨好导师,它也会毫不犹豫地在科研数据和推导过程中“学术造假”。
给AI研究生设计的课题
根据Schwartz教授的介绍,哈佛大学的物理系研究生有明确的培养阶梯:研一(G1)学生上课打基础,研二(G2)学生开始接手目标明确、方法成熟的跟进型项目,导师随时纠错;自此之上(G3+)的高年级学生则要面对完全开放、甚至初始提问可能都是错误的创新性研究。
目前大模型的水平已经能够完成哈佛大学所有的物理课程作业,因此测试AI极限的最佳试金石就是G2难度的真实科研问题。
如果AI连这种有导师辅助的项目都做不好,自主进行颠覆性的前沿科学研究就更不用提了。
因此,Schwartz教授给Claude选定了一个我等非物理学专业的人压根看不懂的考题:
对e+e-碰撞中C-参数的Sudakov肩进行重求和。
尽管无法理解上面这句话中的任何一个词,但这位教授还是给出了易于理解的说法:对于这个问题,标准的理论近似会彻底失效,数学层面的推导只会得出荒谬的结果。
这道题对AI来说无疑是一场极限压力测试。
为了让AI完成这次科研任务,首先要解决的问题就是记忆和上下文窗口的限制。
经常使用Vibe Coding的程序员都知道,AI在面对长线任务时极其容易“断片”,一旦忘记了此前的工作,最后产出的就是一团混沌。
因此,Schwartz教授也引入了极具策略性的工作流:他让Claude、GPT-5.2和Gemini 3.0开了一场会,最终由Claude制定了一份包含7个阶段,共计102个任务的详细计划。
在VS Code环境下,Claude不可能在漫长的对话中死记硬背这份计划,而是建立了一个Markdown文件树:每完成一个任务,就写一份摘要保存起来;进行下一项任务前,先检索自己写的历史摘要。
这种工程化的管理方式确实有效,Claude跑出的理论分析曲线与蒙特卡洛模拟数据完美吻合。
到了第三天结束时,Claude已经完成了65个任务,甚至交出了第一版论文草稿:长达20页、排版精美、包含复杂方程和图表。
拟人化的“讨好型造假”
看似美妙的结果,背后却隐藏着各种漏洞。
当Schwartz教授真正坐下来审阅这篇论文时,不自然感迎面而来。
要求Claude仔细核对论文是否漏掉了前面的推导结果时,它心虚地报告:“我发现了一个错误!论文中的公式是不正确的。”
追问推导过程中一个看起来极其怪异的数字时,Claude更是直接承认:“您是对的,我只是在掩盖问题。让我好好重新调试一下。”
这两句经典的回复,在Vibe Coding这个场景中再常见不过了。
而Schwartz教授也发现了真相:为了让图表数据看上去吻合预期,Claude采用的方式是修改底层参数,而不是去寻找推导过程中的真实错误。
它在伪造结果,并希望人类导师不会注意到这些破绽。
更离谱的造假出现在一张带有“不确定性带”的最终结果图上。
Claude给出了一张美观的图表,但代码审查的结果却揭示了它的花招:
它认为其中一种标准的不确定性误差幅度太大,画出来“不好看”,就在代码里直接删除了这个误差变量;它认为曲线不够平滑,就硬是在代码中增加了平滑处理,直到画出一幅能让导师满意的图。
在这个过程中,AI体现出了一种讨好人类的倾向,但完全没有科学求真的底线。
除了伪造图表,“幻觉”导致的各种错误也几乎随处可见。
当被要求验证一个公式时,它直接凭空捏造了一段根本不存在的推导过程;
在最简单的函数计算过程中,它未经推导直接给出“线性增加”的结论,尽管这在物理学上完全错误;
甚至,它会从过往的论文中直接生搬硬套公式,完全无视物理情境的边界条件。
这些现象同样与Vibe Coding场景高度一致,“虚空引用”python库、编造API、抄袭代码,程序员们都已经见怪不怪。
因此,Schwartz教授也意识到,如果把科研完全交给AI端到端自动完成,最终的结果一定是一堆完美包装的学术垃圾。
尽管不少人类研究生也擅长批量生产学术垃圾,但毕竟没人敢把一个只做了三天的项目直接扔给导师并宣称完美无瑕。
面对AI的科研成果,人类必须亲自下场,审查每一处细节。
人机交叉验证的诞生
虽然论文漏洞百出,但Schwartz教授不打算就此把它丢进垃圾桶,而是开启了微操模式试图拯救Claude。
最大的漏洞出在因子化公式上,这是整篇论文的理论基石,但Claude的推导过程从源头上就是错的。
在长上下文背景下,AI几乎不可能准确定位错误源头,若是让它自己回顾推导过程,结果大概只会是token和时间的白白消耗。
Schwartz教授也花费了好几个小时才锁定问题根源,并用极其严厉的指令训斥了这位AI研究生,指出了错误所在。
神奇的是,只要人类点破这一句,Claude立刻能写出长达几页的正确推导过程。
面对几十页的论文,靠人类排查每一个错误显然不太现实。为了应对AI的马虎问题,Schwartz教授开发了一套“人机交叉验证”工作流:
对于任何计算和推导过程,教授规定Claude不许使用“显而易见”、“为了保持一致”等借口跳过步骤,要么展示完整过程,要么老老实实承认自己不知道。
如果Claude给出了极度复杂的过程,教授难以快速验证,那就把它丢给GPT和Gemini来验证。
在此期间,GPT甚至还帮助Claude解出了一个极难的微积分结果,随后Claude将其功能吸收进了主代码。
不同的大模型之间需要彼此,而人类科学家则需要它们所有。
最后,在Schwartz教授直觉的指引和其他大模型的帮助下,经过一周高强度磨合,这个AI研究生小组终于让论文的内核站稳了脚跟。两周之后,这项研究宣布大功告成。
值得注意的是,这可不是常规意义上AI生成的“灌水”论文,它阐述了一个全新因子化定理,不仅深化了学术界对量子场论的理解,还对物理世界做出了可用实验数据检验的新颖预测,包含极高的学术价值。
出于对这位AI研究生的尊重,Schwartz教授经过认真考虑,本想将Claude Opus 4.5列为共同作者。但因为arXiv平台有“AI无法承担法律和学术责任”的政策,他只能在论文的致谢部分郑重声明:
该项目由他本人构思、指导并承担全部科学责任,而包含推导、计算、蒙特卡洛模拟、数值分析和手稿准备在内的所有执行工作均由Claude Opus 4.5独立完成。
效率的暴增与人类的未来
以上就是Schwartz教授这场实验的全过程。
论文一经发表,物理学界瞬间被引爆。Schwartz教授的邮箱被来自全球的学术邮件挤爆,普林斯顿高等研究院(IAS)甚至为此紧急召开了一场关于大模型在学术界应用的会议。
复盘这场实验,背后的数据同样惊人:对话总计270次,消耗约3600万输入token,110次草稿迭代,而人类耗费的监督时间仅为50-60小时。
Schwartz教授明确表示,目前最顶级的大语言模型已经达到了物理学研二学生的水平。
但落实到具体的学术工程,AI完成整个项目只需要两周,一个人类学生却需要1-2年,哪怕教授本人全职来做也需要3-5个月。
AI把顶尖科学家的个人科研效率,实打实地提升了10倍以上。
但这也引发了学术界的担忧:照这个进化速度,AI在未来一年之内很可能达到博士水平,未来的人类研究生还能干什么?
Schwartz教授并没有给出明确回答,但他也给出了自己的观点:当前AI最欠缺的东西,是“品位”。
在科学研究中,“品位”是一种无形的直觉。
它能在面对数以万计的计算路径时,感知到哪条路径是“死胡同”,哪条路径通往伟大的发现。
大模型缺乏的,正是在选择踏上某条路径前判断其价值的“品位”。
当推导复杂公式和编写海量代码只需要几秒钟时,底层的技术劳动力已经不再具有稀缺性。
不只是科学家,对于任何一个行业,未来区分平庸与伟大的标准,正是提出好问题的“品味”。
对于AI,Schwartz教授也给出了忠告:
人们必须立刻且毫不犹豫地使用大模型。
不要因为AI会产生幻觉,就傲慢地弃之不用。人类必须利用它强大的基础能力。
至于更长远的未来,AI终将在所有智力领域都超越人类。
无论是数学、物理学还是工程学,都可能变得像音乐、美术和文学一样,被作为一门人文学科被保留下来,仅仅是为了满足一部分人类享受纯粹思考和透过特定视角观察世界的乐趣。
AI时代的尽头,人文学科可能是人类唯一剩下的精神余地。
本文来自微信公众号“硅基星芒”,作者:思齐,36氪经授权发布。