比IMO还难的数学挑战赛,谷歌赢了OpenAI
IMO金牌已经“过时”了。
基于Gemini 3 Deep Think的谷歌数学智能体Aletheia在更难的挑战赛FirstProof中拿下的最佳成绩。
在公布的完整成绩单中,10道题Aletheia全程0人工参与解出6道,其中5题专家全票通过,还有一题拿到了5/7的通过率。
FirstProof是由来自哈佛、斯坦福等名校的11位顶尖数学家联手打造的一套专门验证AI独立科研能力的数学题集。
10道题全网无迹可循,没法儿背答案作弊,连陶哲轩都转发说这事儿非常有意思,推荐关注。
不止谷歌,OpenAI内部模型也考了这套题,基本正确的有5题。
但是!谷歌全程AI自主,OpenAI在考试过程中动用了人工来挑最佳答案(doge)。
谷歌略胜一筹
FirstProof由来自哈佛、斯坦福等名校的11位顶尖数学家出题。
和IMO这类竞赛题不同,最新挑战赛的10道题不是标准化的竞赛题,而是直接扒自数学家们真实遇到的难题,之前从没任何公开发布过。
而且,答案都是在AI考完之后才放出来的,这样就切断了AI通过背答案套模板的可能。
先看成绩单,OpenAI冲刺七天,在5个问题上基本正确,分别是:
4. 有限加性卷积与Φₙ的调和平均不等式;
5. O-适配切片滤过与切片连通性的几何不动点判据;
6. 大规模ε-轻顶点子集;
9. 缩放四线性行列式张量之间的代数关系;
10. 含缺失数据的核化CP–ALS子问题:基于Kronecker预条件的无矩阵PCG方法。
其实,初期OpenAI公布的成绩单有6题,结果第2题(非阿基米德局部域上GLₙ的Rankin–Selberg积分非零性判定)反复被社区指出有逻辑问题,于是团队保守改成5道。
不过,团队透露在在测试过程中人工协调了该模型与ChatGPT之间的交流,用于验证、格式整理与风格调整。
有个别问题最终呈现的是人工挑选的最佳结果。
谷歌Aletheia这边,6道题全都自主拿下,包括OpenAI被质疑的第2题。
在专家评审中,在2、5、7、9、10题获专家全票通过。
其中,第7题是公认的本套题集中难度最高的一题,是一个公开未解决的问题,直至本次FirstProof挑战赛发布标准答案时,才由Cappell–Weinberger–Yan团队完成首次解决。
第8题虽然没全票通过,但也拿到了5/7的高分。
对应的题目分别是:
2. 非阿基米德局部域上GLₙ的Rankin–Selberg积分非零性判定;
5. O-适配切片滤过与切片连通性的几何不动点判据;
7. 含2-挠率的实半单群一致格的紧流形基本群可实现性;
8. 多面体拉格朗日曲面的4-顶点Lagrangian光滑化存在性;
9. 缩放四线性行列式张量之间的代数关系;
10. 含缺失数据的核化CP–ALS子问题:基于Kronecker预条件的无矩阵PCG方法。
要从解题数量和模式来看的话,谷歌Aletheia不仅解题数多1个,相比之下还靠AI全程自主略胜一筹。
接下来,咱继续看看Aletheia到底是个什么打法。
AI自主最佳二选一
首先,底层模型就是之前拿了IMO金牌的Gemini 3 Deep Think。
Aletheia搭载了AB两个版本的Gemini 3 Deep Think模型,来了个最优二选一。(A是2026年2月的最新版,B是2026年1月的版本。)
然后是从读题到交卷的真·0人工干预解题流程。
Aletheia能直接读取不经过人类格式化的原始问题,自主推理后输出答案。
再通过内置的验证与提取提示自动校验答案的逻辑严谨性和规整格式,最终直接吐出LaTeX形式答案。
而且,剩下的没解出来的4道题倒也不是错了,而是直接“拒答”。
这是由于由于含智能筛选机制,当Aletheia无法生成可靠的证明时,模型不会胡编乱造生成无效答案,而是直接输出“无解决方案”的回复。
Aletheia还能动态调整推理资源的分配,比如遇到超难的第7题,它能自动投入远超常规题的推理算力,通过Generator子agent多轮生成+Verifier子agent严格校验,最终攻克。
而简单题则合理控制算力,避免资源浪费。
比如面对第10题这种张量分解的数值型题时,Aletheia给出了矩阵-向量成绩高效计算的方法。
不直接生成超大维度的Khatri-Rao乘积矩阵Z,而是通过动态生成所需行的方式,将每轮迭代的复杂度压缩到O(qr+n²r),比传统线性solver的O(n³r³)快几个量级。
这波谷歌略胜一筹,下一轮问题集3月中旬就要来了,难度只会更高,咱拭目以待~
参考链接:
[1]https://x.com/lmthang/status/2021644542852968952
[2]https://mathstodon.xyz/@tao/116022211452443707
[3]https://x.com/polynoamial/status/2022527227049742779
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。