首页文章详情

一天审完两万篇,AAAI 2026首次实装AI审稿,单篇成本不到1美元

机器之心2026-04-19 10:03
在六项关键对比中,人类被 AI 正面击败

AI 评审论文,到底靠谱不?

不同的人可能会有不同的答案,但毫无疑问,人们对于 AI 评审的接受度正在慢慢提升,一些顶级会议也在巨大论文投稿量压力下开始推进此事。举个例子,ICML 2026 就已经放宽了 AI 评审的要求,只是还不允许完全由 AI 执行评审,参阅报道《评审用不用 AI,作者说了算?ICML 2026 全新评审政策出炉》。

前两天,另一个同样曾被巨量投稿压得喘不过气来的顶级会议 AAAI 2026 也给出了自己的尝试。要知道,该会议 Main Technical Track 共接收将近 3 万篇投稿,评审工程量非常大。参阅报道《AAAI-26 投稿量爆炸:近 3 万篇论文,2 万来自中国,评审系统都快崩了》。

具体来说,AAAI 官方联合多所大学和研究机构开展了一份试点研究:为 AAAI-26 会议的每一篇 main-track 投稿都生成了一个 AI 评审结果

至于结果,可能在很多人的意料之中:AI 的整体表现已经胜过了人类。或者按 AAAI 官方的说法是:「对 AAAI-26 作者和程序委员会成员的大规模调查显示,参与者不仅认为 AI 评审有用,而且在技术准确性和研究建议等关键维度上,实际上更偏好 AI 评审。」

报告标题:AI-Assisted Peer Review at Scale: The AAAI-26 AI Review Pilot

报告地址:https://arxiv.org/abs/2604.13940

下面我们就来具体看看这份「AAAI-26 AI 评审试点」研究报告。

当前 AI 领域面临的评审难题

随着 AI 技术的飞速演进,传统的科学同行评审制度正面临着前所未有的负荷。无论是 Nature 还是 NeurIPS 等顶尖学术殿堂,近年来的投稿数量都在以惊人的速度激增。

然而,学术界赖以生存的评审机制却几乎停滞不前,重度依赖着人类专家们无偿投入大量的心血与时间。

在审稿人资源日益紧缺、资深学者分身乏术的窘境下,维持论文评审的高质量、评判标准的统一性以及出结果的时效性,变得越发捉襟见肘。

为了应对 AAAI 2026 创纪录的海量投稿,大会组委会甚至迫不得已招募了超过 28000 名程序委员会成员,这一规模甚至达到了上一届会议的三倍之多!

史无前例的大规模部署:一天内完成两万份深层评审

在这样一个亟需破局的时刻,AAAI 2026 AI 评审试点项目来了,其长篇报告事无巨细地披露了他们如何在真实的顶级学术会议高压环境中,利用前沿 LLM 对 22977 篇进入全面评审阶段的论文执行了彻底的 AI 审查。

在此前的相关探索中,研究团队往往只能在隔离的模拟环境里,或者是挑选少量已经发表的成熟论文来测试 AI 的审稿水平。

而这一次的 AAAI 2026 试点计划,是整个学术界历史上第一次在大型会议严苛的真实双盲投稿流程中,直接引入且官方部署的 AI 生成式评审体系

只要是顺利进入 AAAI 2026 评审第一阶段的 22977 篇主流赛道论文,其作者和评委都会收到一份带有明确 AI 标识的评审意见。

会议组委会在实施该计划时非常谨慎地确立了红线:引入 AI 只是为了给整个流程提供更多维度的附加输入,在此过程中没有任何一位人类专家的审稿资格被算法所取代。此外,AI 生成的最终文档里绝对不包含具体的评分数值,也不会给出诸如「接收」或「拒稿」的硬性推荐判定。相反,高级程序委员会成员(SPC)以及领域主席(AC)在做裁决时,被鼓励将 AI 挖掘出的问题与人类专家的意见相互印证,综合把控论文的质量并决定是否将其推进到第二阶段。

令人深感震撼的是这套 AI 平台展现出的超高效率与成本控制。

报告给出了明确的算账结果:在顶级会议的体量下全面铺开 AI 评审在工程操作上是完全可行且轻松的,平摊到每一篇长篇学术论文上的计算成本居然不到 1 美元

值得一提的是,作为此次大会的重要后援,OpenAI 为该项目无偿提供了支撑全局的 API 资源赞助。在包含复杂代码沙箱与外部搜索接口的多进程工作流中,利用当前处于一流水准的 GPT-5 模型引擎,整个底层系统在短短不到 24 个小时内就处理完毕了全部两万多篇论文的阅读与批改

AAAI-26 AI 评审系统和评审生成时间线

架构解析:摒弃端到端生成,引入严苛的五步验证循环

早期的对比研究已经敲响了警钟,如果开发者图省事,只是简单地把长篇学术文档丢给大模型并祈祷它直接吐出一份详尽的审稿意见,得到的通常是浮于表面的废话或者满篇的幻觉。

汲取了这些教训后,研发团队精心构建了一条结构繁复、多环节嵌套的 LLM 工业级流水线。

考虑到顶级语言模型在处理超高分辨率像素图像或异构多模态文档时存在吞吐限制,系统的前置节点会对每一份 PDF 稿件进行统一的标准化预处理。其中所有的插图均会被重新采样至 250 DPI 以适应显存。由于之前的压力测试暴露出纯文本提取模式常常会导致模型灾难性地曲解深奥的数学公式与多级表格,技术团队引入了针对性的 olmOCR,强行将原版 PDF 剥离并转换为内嵌精准 LaTeX 数学符号以及结构化表格信息的 Markdown 文件。

在同时掌握了 PDF 视觉线索与 Markdown 文本之后,AI 评审系统便开始在五个核心科学审查舱内同时运作 :

故事脉络审视(Story):严格考量作者的问题设定是否成立、文献断层的声明是否真实、核心贡献是否站得住脚,并判断文中的证据链条是否能够自圆其说。

表达与结构扫描(Presentation):对行文的清晰度、章节连贯性、语法可读性进行判别,审核复杂的技术语境是否易于同行理解。

实验评估核对(Evaluations):激活内嵌的 Python 代码解释器,像挑刺一样审查文章选用的对标基线、测试集、统计显著性指标,排查支撑核心主张的实验是否存在数据漏洞,并专门针对可重复性进行拷问。

正确性推演(Correctness):同样依赖代码沙箱的算力,强行推演并验证复杂的数理公式、逻辑证明、算法伪代码以及图表映射数据的绝对正确性。

意义与行业定位(Significance):授权大模型连入定制的广域网搜索引擎进行跨库文献追踪。为了防止信息污染,检索权限被死死限定在相关顶会的正式发表文献之中,排除一切非同行评审的预印本干扰,借此无情地评估文章的真实创新幅度并搜寻作者故意回避的对比实验。

当这五大考验结束后,系统会将散落的见解重组,排版生成一份格式规整、结构详尽的初始审稿草稿。紧接着最关键的一步出现了:系统会启动「自我反省批判」模块。

大模型会被命令转变身份,死盯着自己刚刚写出的草稿寻找毫无依据的指责、事实层面的误判或者是与原论文自相矛盾的段落。最后,基于自我批判生成的修正清单,大模型会重写并输出最终定稿的 AI 评审报告。所有的底层对话日志、中间状态检查点以及调试报告均被永久留存,以备人类审计。

在报告最终推送给作者之前,还有一道基于 GPT-4o-mini 的质量过滤网在静默拦截。它专门负责筛查文本中是否由于大模型的疏忽而意外泄露了匿名的作者身份、是否存在侮辱性词汇、是否夹带了针对性别与地域的系统性偏见,或者结构本身遭到了破坏。只有经受住这样的打磨,报告才能重见天日。

在六项关键对比中,人类被 AI 正面击败

无论系统的参数有多么华丽,真正的裁决权永远掌握在社区的广大研究者手中。为了探明这场耗资巨大的试点的实际效用,研究团队向会议的所有利益相关方下发了追踪问卷,最终成功回收了 5834 份反馈数据。

问卷内置了九大衡量评审质量的硬性黄金标准,受访者需要在 5 分制的李克特量表上给出他们的评判。

最终的统计图表揭示了一个令传统学者略感不适的现实:在整整九项对照组中,AI 评审在其中六个维度上的均分无情地超越了由人类学者撰写的报告。

更有趣的是,相较于挑剔的评审委员,那些被审稿的论文作者群体展现出了对 AI 审查结果更强烈的偏爱

调查回复:AI 与人工审核对比分析 (a) 及 AI 审核问题 (b)

具体而言,AI 在以下维度展现了压倒性的优势(各项数据的 p-value 均展示出强悍的统计学差异):

在精准锁定深层技术性错误方面,AI 极其敏锐(均分领先幅度达到全场最高的 +0.67)。

抛出了作者在撰写时陷入思维盲区、完全未曾顾及的重要反证(+0.61)。

为调整论述架构和优化论文图表表达贡献了实打实的改进指南(+0.54)。

就如何修补实验逻辑与强化研究设计输出了建设性的技术意见(+0.49)。

对于 AAAI 这种级别的顶会而言,AI 产出报告的详尽与彻底程度让人类相形见绌(+0.48)。

当然,机器目前绝非不可战胜的完人。在剩余的三项考量中,受访者依旧坚持人类评委的卓越性。

数据表明,AI 往往容易陷入死胡同,把微不足道的细枝末节放大成致命问题(落后幅度为 -0.36);在长篇大论中,大模型本身也存在一定的概率写出存在技术漏洞的审稿词(-0.22);并且时不时会给出让人啼笑皆非、毫无执行价值的虚空建议(-0.11)。

最终,高达 53.9% 的受访者认为 AI 在此次史诗级的审稿环节中起到了十分有益的作用,而觉得机器在帮倒忙的人数仅占总体的 20.2%。更有 61.5% 的从业者表示,他们期待在未来漫长的学术生涯里继续让 AI 参与同行评审。

值得回味的是,尽管大家在测试前就有心理预期,依然有 55.6% 的参与者坦承,机器所展现出的技术穿透力已经远远击穿了他们认知中的 AI 天花板

舆情聚类洞察:优势与痛点的直接碰撞

跳脱出冷冰冰的打分,研究组还动用高阶大模型对回收的 320 份纯文本主观感言进行了自然语言聚类解析,提炼出了当前学界对于全面引入 AI 的最集中的五条赞誉以及五大诟病。

最受追捧的五项正面反馈:

直击痛点的修改方略(5.3%):AI 并不只是一味地开炮,它极为擅长将尖锐的抨击就地转化为逻辑严密、上手可操作的修改纲要。

惊人的阅读广度与细致度(5.2%):机器不存在疲劳期,它全方位覆盖每个边角料细节的狂热分析让人类自叹弗如。

技术漏洞捕获器(5.0%):频繁从密密麻麻的推导中精准揪出被几位人类同行接连忽略的公式谬误。

冰冷的绝对客观(4.3%):AI 不存在学术门派之争,情绪绝对稳定,它的介入犹如一道护城河,有效稀释了由于个别审稿人带有主观偏见或故意打压异己而造成的不公。

语法与版式优化(4.2%):对各种拼写隐患、时态错乱以及图片排版的不规整进行降维打击。

备受指责的五项主要短板:

宏观格局与科学嗅觉极其缺失(9.1%):这是当前机器不可逾越的鸿沟。它们在判定一项研究是否具备划时代的行业破坏力或者隐秘的巨大科学收益时,常常显得笨拙。

钻牛角尖与吹毛求疵(8.5%):经常会因为几处不规范的格式而写下长篇大论,导致审稿报告主次颠倒,让真正重要的逻辑瑕疵被掩盖。

信息量溢出引发大脑宕机(8.3%):一份长达数页、包含了几十项细微质疑的报告,实际上极大地增加了被审稿人和审阅主席的处理负担。

灾难性的事实误读(7.7%):在面临最前沿的未解领域或者处理繁复的多级张量方程式时,LLM 依然会彻底弄反原本的意思。

浅尝辄止的领域底蕴(7.6%):无法做到像在这个狭窄细分领域苦熬了十多年的专家那样,一针见血地指出文章与十年前某项不起眼技术的潜在关联。

一位选择匿名的研究者在反馈框中敲下了这样一段话:「我对这套系统的彻底性感到战栗。它找到了那些容易被人类视觉过滤掉的深层技术空洞,并且毫不费力地甩出了最为对口的参考引用。它的冷酷保证了没有主观成见。然而,它缺乏一种直觉,一种只有在实验室里泡了无数个日夜的学者才能拥有的灵气。面对那些稍微偏离了正统范式但蕴含着惊人潜力的奇思妙想时,AI 只会呆板地打压。」

这位学者最后建议,在未来,应该把文献海选、技术合理性普查这种「脏活累活」全权剥离给机器,从而让人类评委能够专注去品鉴论文的灵魂与对真实世界的冲击力。

为了确保大模型不是在信口雌黄,团队还抽查了 100 份 AI 生成的报告,利用 GPTZero 追查其中的 1356 处外部学术文献引用。

令人咋舌的是,经过严苛对比,高达 1346 处引用被证实完美存在,精准匹配了发表渠道、挂名作者及原始标题,戳破了所谓 AI 必然疯狂产生引用幻觉的坊间传闻。

其中那 2 个被检测工具判为伪造的孤例,经人类排查后证实,一个只是引用了企业级未公开说明书而非学术刊物,另一个则仅仅是模型搞混了首发的会议缩写。

创立 SPECS 基准:给机器做一场学术级「病理切片」

光靠问卷发声还不够硬气。为了用铁证说明这套复杂的多引擎流水线确实秒杀了直接套壳大模型的普通做法,专家组耗费巨资打造了一个名为 SPECS 的变态级科研测谎基准。

想要通过传统的文本相似度来衡量上万字的开放式审稿质量无异于痴人说梦。于是,团队参考了曾经的 FLAWS 思路,采取了主动投毒的策略。他们将目光锁定了上一届 AAAI 2025 那些已经大放异彩的优秀论文,从中挑选出能在本地通过底层编译的 LaTeX 原始项目。紧接着,研究员命令另一个大模型作为「黑客」,往这些完美的论文源码里恶意下毒,精准注入了涵盖故事破裂、文字排版灾难、实验作假缺失、逻辑公式篡改以及刻意拔高意义这五大维度的「隐性学术癌细胞」。经过重编译后,这批携带着致病基因的伪装 PDF 被当做绝密试卷分发了下来。

在这张布满陷阱的试卷上,一头是只有简陋提示词的通用大模型,另一头则是部署了 AAAI 2026 全套武库的多阶段 AI 系统。作为裁判的更强力模型死死盯着它们交上来的审稿书:只有在密密麻麻的文字中精准点名道姓地揪出被注入的特定隐患,并且截取出了对应原文作为确凿证据,才算有效得分。

结果毫无悬念:单薄的通用基线模型像无头苍蝇一样,在各项漏洞检测上的平均召回率仅有可怜的 0.4291。而那套武装到牙齿的最终流水线以碾压之势取得了 0.6386 的惊人战绩,查错效能净提升了 0.20 以上。

特别是在拆穿「虚假的故事线」以及挖出「实验评估漏报」这两大重灾区,新系统更是如同开了透视外挂,得分狂飙了 0.3203 与 0.2390。这些数据证明:只有依靠解构、深潜、验证再重塑的高能工作流,才能真正逼出 LLM 的科学推理极限。

结语

通读这份 AAAI 2026 AI 评审试点总结,我们能够捕捉到一个明确信号:利用当前位居行业顶点的多模态大模型矩阵来协管繁重的科学文献评审,在技术执行面上不仅绰绰有余,并且确实能够以更低成本为陷入泥潭的学术圈带来巨大的杠杆效应。

当然,这绝不意味着我们可以肆无忌惮地交出方向盘。

在激烈的争论中,一部分学者基于原则发出了最严厉的警告。他们忧虑地指出,如果对这种力量不加节制,AI 的过度渗透将会不可逆转地腐蚀掉同行评审这一制度背后最宝贵的人性温度与学界信任契约。

更有从业者预言,这种便利可能会温水煮青蛙一般,使得新一代评审委员退化掉本该敏锐的学术嗅觉;同时这也将倒逼论文作者们抛弃追求真理的初衷,转而花费大把精力去钻研如何修改排版以谄媚 AI 的隐性偏好。

更有甚者担忧,大模型长篇大论的报告极具魅惑力,极易让那些想要偷懒的主席在没有亲自下场阅读的情况做出无可挽回的错误裁决。

但历史的车轮滚滚向前。问卷数据以及庞大的开发者日志都在反复佐证一个事实:机器的硅基心智与人类的碳基智慧,注定要在未来的科学前沿更加密不可分。

你的 AAAI 2026 论文收到了怎样的 AI 评审?

本文来自微信公众号 “机器之心”(ID:almosthuman2014),作者:机器之心,36氪经授权发布。