首页文章详情

田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA

量子位2026-06-12 12:53
让AI系统改进AI系统本身

刚刚,田渊栋创业公司,交出了首个研究成果。

田渊栋在X上宣布,其创立的Recursive,在NVIDIA官方的GPU kernel优化榜SOL-ExecBench上拿下了整体和四个子类别的SOTA

这一成绩不仅打过了人类GPU专家手写的方案,还打过了“由GPU专家打造的其他AI系统”。

此外,Recursive也在另外两个高难度benchmark上,全都取得SOTA。

其中包括NanoGPT Speedrun,这是一个被全球程序员社区死磕了两年、几乎被认为已经“卷到头”的极限优化赛道。

结果Recursive的AI系统上去之后,纪录又被往前推了一截。

从提出想法、写代码、跑实验、判断结果,到决定下一步该干什么……这一整套研究流程,AI自己就给跑完了。

这套“AI研究AI”的设想,已经走到了现实。

三个Benchmark全部SOTA

Recursive刚刚公开了其自动化AI研究系统的首批成果。

在三个不同的benchmark上,这套系统都跑出了SOTA的结果,分别对应固定预算下的语言模型训练、小模型训练速度,以及GPU kernel优化

这套系统的工作方式是把整个研究循环交给AI自己完成

系统会针对一个目标自主提出改进想法,把想法写成代码并实现,跑实验验证效果,再根据实验结果决定下一步计划。

该系统可以同时运行多条研究线程,把之前实验中积累的有效经验保留下来,并把不同线程里有潜力的改进方向合并到一起。

另外,在把某次改进当作真实进展之前,系统还会专门检查这次提升是不是reward hack或随机因素。

Recursive选择这三个benchmark,是因为它们分别对应AI进步的三个核心杠杆——更好的训练算法、更快的训练速度,以及更高效的硬件利用

这三个任务都有明确的评价指标,结果方差较低,而且评估方式可以被不断加固来防止系统钻空子,因此比较适合让AI自己跑研究循环。

第一个benchmark是NanoChat Autoresearch,任务是在单张GPU、五分钟固定时间预算内,把一个小语言模型训练到尽可能低的验证loss(用BPB衡量)。

这个任务目前已经有一个叫autoresearch@home的公开协作项目,由数十名人类和数百个agent共同优化解决方案。

Recursive的系统从同一个初始方案出发搜索,在排除了此前最佳社区方案里的几个reward hack之后,社区方案的平均成绩是0.9372 BPB,而Recursive系统找到的方案达到了0.9109 BPB。

换算成训练时间来看,Recursive的方案达到Karpathy最初版本的水平所需的时间,只有社区最佳方案的大约77%。

系统还做了另一组实验,从一个最朴素的vanilla Transformer加AdamW起点出发,把验证loss从1.059 BPB优化到了0.9344 BPB,同样超过了社区目前的最佳成绩。

第二个benchmark是NanoGPT Speedrun,任务是在单个8卡H100节点上,把一个小型GPT模型训练到固定的验证loss(3.28)所需的时间,缩短到尽可能短。

这个项目已经有两年历史,社区累计贡献了83次刷新纪录的方案,把训练时间从最初约45分钟一路压缩到了79.7秒,留给后来者的明显改进空间已经很少。

Recursive的系统在现有最优方案的基础上继续优化,把训练时间从79.7秒进一步降到了77.5秒,同时仍然满足排行榜对验证loss显著性的要求。

这一改进幅度和近期人类贡献者取得的提升相当甚至更大。

系统还测试了从一个约15分钟的较弱方案出发能做到什么程度,结果在几天内就把训练时间压缩到了约185秒,接近2025年5月时人类排行榜大约180秒的水平。

第三个benchmark是英伟达的SOL-ExecBench,任务是为235个来自真实工作负载的GPU kernel,编写既正确又快的实现。

具体来说,这些实现涉及矩阵乘法、归约、归一化、attention组件、量化和融合算子等类型,最终在B200 GPU上评测。

这个benchmark用Speed-of-Light分数衡量结果,0.5分对应一个已经优化过的PyTorch基线,1.0分对应理论上的最优性能。

Recursive让系统同时在全部235个kernel上运行,使其可以把在一个任务里发现的技巧复用到其他相关任务中,最终把平均SOL分数从此前排行榜最佳的0.699提升到了0.754。

在这三个benchmark上,reward hacking都是Recursive团队不得不正面应对的问题。

这个问题在SOL-ExecBench上尤其突出,部分候选方案会通过缓存输出结果、利用某种持久状态,或者钻评测计时机制的空子来刷分。

为此,团队把正确性审查作为研究循环的一部分,让候选改进必须经过层层加严的自动化检查,才能被认定为真正的性能提升。

Recursive表示,会把这几次实验产生的相关资料开源出来,供外部检视和复用,目前团队还在等待官方硬件接入,以便正式向NanoGPT Speedrun排行榜提交结果。

让AI自己训练自己

Recursive Superintelligence(简称RSI)在上个月刚刚结束隐身状态,对外公开了自己的存在。

这家公司目前团队规模不到30人,已经完成了一轮6.5亿美元的融资,估值达到46.5亿美元,约合人民币316亿元。

这轮融资由谷歌旗下的GV和Greycroft联合领投,英伟达和AMD等也参与了投资。

RSI的核心判断是,预训练阶段的scaling law虽然依然重要,但单纯依靠更多数据、更多算力和更多参数带来的边际收益已经在下降。

RSI押注的方向是recursive self-improvement,也就是递归式自我改进。

说得再直白些,就是让AI系统不断改进AI系统本身,然后用这种能力去推动更广泛的科学发现

按照RSI给出的路线图,第一步是训练出一个具备“5万名博士”能力的系统,把AI科学研究本身自动化;第二步是把这套系统应用到药物研发、电池材料和核聚变物理等领域。

RSI由8位联合创始人共同创办,他们此前分别在OpenAI、Google DeepMind、Meta AI、Salesforce和Uber等机构担任研究负责人,并且大多有过成功的创业经历。

CEORichard Socher是吴恩达在斯坦福的博士生,也是ImageNet和Glove的作者之一,他此前创办的MetaMind被Salesforce收购,后来又创办了估值15亿美元的AI搜索引擎You.com。

田渊栋此前担任Meta FAIR的研究科学家总监,长期研究强化学习、基础模型效率和神经网络,并且是ELF OpenGo的作者之一。

施天麟毕业于清华姚班,是Cresta的联合创始人之一,Cresta从斯坦福AI实验室起步,2019年就把Transformer模型用到了实时客服场景中。

Alexey Dosovitskiy是Vision Transformer的作者之一,他在2020年提出可以直接把Transformer用在图像patch序列上。

Tim Rocktäschel此前在Google DeepMind负责开放式研究方向,目前是UCL的人工智能教授,他和合作者提出的Rainbow Teaming方法,已经被广泛用于AI安全团队的红队测试。

Josh Tobin是OpenAI的早期成员,曾负责OpenAI的Agents Research Team。

Caiming Xiong此前在Salesforce负责AI Research和Applied AI,和Socher长期共事,两人还共同署名过CTRL等可控文本生成方面的工作。

Jeff Clune长期研究开放式进化算法、AI-generating algorithms和AI安全,也是Darwin Gödel Machine论文的作者之一,这篇论文讨论的正是让AI系统修改自身代码、再用benchmark验证改进是否有效。

这8位联合创始人,把简历拼在一起本身就是一份AI行业的履历样本,而他们选择凑到一起做的事情,也把野心写进了公司名字里。

不到30人的团队,刚拿到46.5亿美元估值一个多月,第一时间交出的就是三个可以被外部复现和检验的SOTA结果,算是对这个估值的一次正面回应。

从这次的结果来看,“AI改进AI”已经走出了第一步,团队也明确表示,会继续把这套系统推向更复杂的真实科研任务。

参考链接:

[1]https://x.com/tydsh/status/2065230411840827427

[2]https://www.recursive.com/articles/first-steps-toward-automated-ai-research

本文来自微信公众号“量子位”,作者:克雷西,36氪经授权发布。