首页文章详情

离了大谱,21%的ICLR 2026审稿意见竟是AI生成的?官方回应来了

机器之心2025-11-17 14:13
当你的「命运」交由AI决定时,你还能放心地投稿吗?

刚过去的这个周末,围绕 ICLR 2026 审稿意见中很多被标记为完全由 AI 生成的说法,引发了社区热烈讨论。本届会议将于 2026 年 4 月 23 日至 27 日在巴西里约热内卢举行。

随着首轮分数的公布,有第三方机构开始对 ICLR 2026 的审稿意见进行系统性统计,其中发现了大量 AI 审稿的现象。

在对 75800 篇论文的审稿意见统计中,竟然有 21% 完全由 AI 生成、4% 重度由 AI 编辑、9% 中度由 AI 编辑、22% 轻度由 AI 编辑,完全由人类(审稿人)撰写的仅占 43%

图源:X@ Graham Neubig

并且还呈现出一些趋势,包括AI 审稿意见篇幅更长、AI 审稿更可能给出高分

这项统计是由潘格拉姆实验室(Pangram Labs)完成的,这是一家专门检测 AI 生成(自动撰写或由大语言模型生成文字内容)的科技公司。此次,该机构对 ICLR 2026 投稿人和审稿人使用 AI 的情况进行了详尽的分析。

图源:X@ Pangram Labs 首席执行官 Max Spero

为了处理每篇论文,Pangram Labs 下载了 PDF,并使用 Mistral-OCR 解析其中的文本内容。这样可以去除预印本中的行号,得到较为干净的文本用于分析。他们针对所有文档运行了 Pangram 的生产模型,其在底层使用滑动窗口算法来估计 AI 使用的程度。

虽然许多文档检测到 AI 使用程度在 0% 到 10% 之间,但这些大多是因为论文中包含了作为研究内容的 LLM 输出示例,而不是在论文主体写作中使用了 AI。因此这一类全部被归为「完全由人类撰写」。

投稿论文的 AI 使用程度以及平均得分划分。

对于投稿论文,最终发现有 39% 以某种方式使用了 AI 作为写作助手。但有趣的是,论文中的 AI 使用程度与较低的评分呈相关性。其中,199 篇被 Pangram Labs 标记为「90–100%」AI 内容的投稿,它们的平均得分竟然只有 2.9 分。

对于审稿意见,由于评审文本很短,因此无法依赖滑动窗口来区分「AI 辅助」与「AI 生成」。因此,Pangram Labs 使用了EditLens—— 一个全新模型,旨在量化一段文本中 AI 辅助的程度

审稿意见中 AI 使用程度的预测、评分以及置信度。

结果发现 21% 的审稿意见被 EditLens 标记为完全由 AI 生成。并且,完全由 AI 生成的评审平均得分高出 0.3 分,长度也比完全由人类撰写的评审长了 26%

完全由 AI 生成的审稿意见示例如下:

对于有人询问的AI 评审的「置信度」问题,Pangram Labs 发现:完全由 AI 生成的评审比人类或 AI 辅助撰写的评审更倾向于给出置信度为 3 的评价。不过,这个差异幅度较小,因此仍需谨慎解读。

另外,为了验证所用模型的准确性(假阳性率),Pangram Labs 使用 ICLR 2022 的审稿意见运行了 EditLens,结果发现:轻度 AI 编辑的假阳性率为千分之一,中度 AI 编辑的假阳性率为五千分之一,重度 AI 编辑的假阳性率为万分之一,而完全由 AI 生成的未出现任何假阳性

评论区有审稿人现身说法,表示自己评审的一篇论文在收到另外两个低分评审时被打了回去,而这两个评审正好被标记为完全由 AI 生成。

官方回应来了

就在今天早上,ICLR 2026 发布了一则官方回应,表示「我们已经注意到低质量的评审以及由大语言模型生成的评审,目前正在讨论应采取的适当措施。就目前而言,收到质量非常差或由 LLM 生成评审的作者,应将其标注并反馈给所在领域主席(AC)。我们感谢社区在报告这些问题上的努力!」

对于使用 AI 的审稿人,有人给出了处理建议:移除不良评审,并自动使这些不良审稿人被认定为「未履行评审职责」,随后自动拒绝他们提交的论文。

评论区有没有向本届 ICLR 投稿的作者,可以参考 Pangram Labs 的统计结果,查看自己论文的 AI 审稿情况。

统计链接:https://iclr.pangram.com/submissions

本文来自微信公众号“机器之心”,36氪经授权发布。