Gemini 3预训练负责人警告:模型战已从算法转向工程化,合成数据成代际跃迁核心,谷歌碾压OpenAI、Meta的秘密武器曝光
2025 年底,大模型行业的“年终决战”正式打响,各家纷纷亮出压箱底的杀手锏,就在这场激烈角逐中,Gemini 3 以绝对王者之姿强势突围,一登场就刷新了行业的认知边界。
11 月 18 日,Gemini 3 直接“横扫”多项权威基准测试,以“世界最强多模态理解”“交互最深智能体”“推理怪兽”的姿态,强势碾压全球所有同类模型。谷歌 CEO 桑达尔·皮查伊亲自为其站台,直言这是“迄今为止最智能的模型”。消息一出,整个 AI 圈瞬间沸腾,所有人都在追问:Gemini 3 的强悍,到底藏着什么秘诀?
答案在发布当天就有了初步线索。Google DeepMind 研究与深度学习副总裁 Oriol Vinyals 直接在推特上“剧透”:“Gemini 3 这么强,核心秘诀就两点:更好的预训练,更好的后训练。”这番直白的表态,让“预训练”与“后训练”瞬间成为行业热议的核心话题。
近日,Gemini 3 预训练负责人之一、开创性论文 RETRO 的合著者 Sebastian Borgeaud 首次现身播客,深度拆解了这款顶级模型背后的实验室逻辑。在他看来,Gemini 3 的飞跃绝非单一环节的突破,而是无数细节持续优化的结果:“我们几乎每天都能找到让模型变更好的地方,整个团队都在加速前进。”
更关键的是,Sebastian Borgeaud 点出了一个核心转变:谷歌已经不再是单纯“做模型”,而是转向“做系统”。 这一观点恰好与 DeepMind 联合创始人兼 CEO 戴密斯·哈萨比斯不谋而合。哈萨比斯此前就公开表示,Gemini 3 的强大,根源在于“研究、工程和基础设施”的深度融合。
Gemini 3 的秘诀,其实侧面反映了当下行业的深刻变革:AI 已经从“无限数据”的规模化时代,正式迈入“数据有限”的新阶段。 这一趋势不可逆转,也倒逼整个行业重新思考创新方向。在 Sebastian Borgeaud 看来,合成数据、推理轨迹、长上下文、持续学习、端到端检索训练,再加上靠谱的评估体系,这些将共同构成 AI 行业未来的进化路径。
其实早在经典的 Chinchilla 项目中,DeepMind 团队就已经摸到了关键规律:在训练计算量固定的前提下,与其盲目扩大模型规模,不如更快地扩展数据规模,这样能训练出更优的模型。 这一结论放到现在依然极具现实意义,它直接决定了模型训练后的推理服务效率和使用成本,是企业落地 AI 的核心考量之一。
作为从强化学习转向表征学习的资深研究者,Sebastian Borgeaud 的预训练功底堪称深厚:从 Transformer 架构,到 BERT、XLNet,再到 DeepMind 第一篇大语言模型论文 Gopher,丰富的研究经历让他形成了独特的“研究品味”,这也为 Gemini 3 的预训练突破埋下了伏笔。
针对行业内 “预训练 Scaling Law 已死” 的争议,Sebastian Borgeaud 给出了明确回应:“规模依然重要,但架构创新和数据创新的权重已经显著提升,甚至变得更为关键。”
那么,在数据受限的大背景下,如何实现更好的模型效果?合成数据成了行业追捧的热门方案,但 Sebastian Borgeaud 的态度却相当审慎:“这确实是个有意思的方向,但必须极度谨慎。”
在他看来,合成数据的核心风险不是“没效果”,而是“用错了还浑然不觉”。一旦数据分布发生偏移,模型看似答题能力提升,但可能会陷入“自嗨”的闭环里。为此,他给出了一套稳妥方案:用强模型生成合成数据后,必须通过小规模的可控消融实验,验证其带来的收益和潜在副作用。
但即便如此,一个核心疑问仍未解决:“用合成数据训练出的模型,能否超越它的‘老师’?”
值得一提的是,谷歌的模型训练一开始融合了多种来源的数据,这也为 Gemini 3 的多模态优势打下了基础。
Sebastian Borgeaud 还透露,DeepMind 正在推进 “后 Transformer 架构” 的创新,同时十分看好 “原生态模型”。尽管这种模型的研发成本高昂,但长期价值值得投入。此外,今年兴起的强化学习规模化趋势,他们也有丰厚的预训练阶的经验可以复用,形成了技术协同效应。
在播客后半段,Sebastian Borgeaud 把话题转向下一轮预训练的热点。他认为,预训练不会再沿着“更大、更长、更贵”的单一路线走下去,重点会转向架构创新:
长上下文和注意力机制是其中的关键变量。如果上下文越长,模型推理时可携带的信息越多,模型能力边界也就越宽。
更长期的方向,是把检索与搜索更深地融入训练,做端到端、可微的学习,让模型把“会检索”变成内生能力,而不是上线后再外挂工具。他判断,强化学习的规模化可能推动这一进程,但要沉淀为稳定的架构与训练范式,不是一时之功,还需要数年。
另一条主线是持续学习。Sebastian Borgeaud 直言,基础模型一旦预训练结束,知识就基本定格:明天出了新论文、新发现,模型不会自己更新。眼下行业更可行的办法主要发生在产品推理侧——接入检索,把最新信息实时拉进上下文,再基于这些材料完成推理,从而避免频繁重训底座、缓解知识过期。
这与他参与的 RETRO 项目思路一致,将知识放在外部库,模型负责推理。他认为检索增强这套方法近年才走向成熟,未来几年有望更深地进入 Gemini 这类头部模型。更远的目标则是改变训练方式,让模型能在真实世界的数据流上持续训练,实现真正意义上的“持续更新”。
Sebastian Borgeaud 还单独拎出来评估这件事,将其视为预训练阶段的核心难题。“如果评估体系跟不上,很容易陷入‘看似提升’的假象内耗,根本分不清是模型改对了,还是数据出了问题。”也正因为如此,谷歌内部搭建了专属的评估体系。毕竟外部基准很容易被污染,保留内部的评估阵地才是关键。
他认为评估需要跨越两道鸿沟:一是在小模型上验证有效的改进,能否顺利迁移到大规模模型上;二是预训练阶段的优势,能否在后训练之后转化为真实可用的能力。
最后,服务成本也是绕不开的现实约束。随着用户规模不断扩大,推理预算变得越来越敏感,预训练环节也必须为“上线落地”负责,在提升模型能力的同时,还要降低成本、节省资源。
对于 Gemini 3 目前的表现,Sebastian Borgeaud 直言“超出预期”。他认为,模型是真的越来越聪明了,这种进步不仅体现在基准测试的屠榜成绩上,更反映在真实工作场景的使用体验中。
展望未来,他预测 Gemini 将更好地服务于科学研究,甚至有可能凭借助力重大发现拿下诺贝尔奖;同时也会越来越深入地融入普通人的生活,解决各类实际问题。
“进步的脚步看不到尽头,至少未来一年,这种加速前进的势头不会放缓。” 这正是他的对未来的预言。
播客里还分享了更多关于 Gemini 3 训练背后的细节和 Sebastian Borgeaud 的精彩观点,我们翻译了该内容,并在不改变原意基础上进行了删减和整理,以飨读者。
Gemini 3 强大的“秘方”:更好的预训练与后训练
Matt Turck:我想从 Oriol Vinyals 的一条推文开始。Oriol 是 Google DeepMind 研究与深度学习副总裁,也是 Gemini 联合负责人。他在 Gemini 3 发布时说,模型背后的秘密非常简单:更好的预训练和更好的后训练。考虑到 Gemini 3 相比之前最先进水平的跃迁幅度,这听起来很朴素。你怎么看?在某种意义上,真的就是这么简单吗?
Sebastian Borgeaud:我不确定这算不算秘密。至少从我的角度看,这很正常。人们有时会期待从一个 Gemini 版本到下一个版本,会有某个重大变化并带来巨大差异。以我的经验,可能确实有一两件事带来的提升更大,但总体上是很多变化、很多来自一个非常大团队的工作累积起来,才让 Gemini 3 比之前几代好这么多。我想这会成为一个反复出现的主题:像 Gemini 3 这样的发布,是大团队共同促成的结果。
Matt Turck:这对 AI 进展意味着什么?从外部看似乎只是调了一些“旋钮”就实现了跃迁。这对未来意味着什么?我们接下来可以期待什么?
Sebastian Borgeaud:有两点。第一,以这种方式我们仍然能取得这么多进展,这仍然很了不起,而且进展并没有放缓。有很多“旋钮”、很多改进,我们几乎每天都能找到能让模型更好的东西。第二,我们不再是在构建一个模型,而是在构建一个系统。人们有时会觉得我们只是在训练一个神经网络架构,但我们实际上也在构建围绕网络的整个系统。
Matt Turck:大家最关心的是:这对真正的智能进展意味着什么?我们不必深入讨论“AGI”,但我们该如何理解模型进展:它是通往智能的路径,还是只是为了在某个基准上表现更好?是什么让你相信核心模型在变得更聪明?
Sebastian Borgeaud:基准表现确实在持续提高,而且前沿基准的设计正在变得越来越难。即使对我这样有计算机科学背景的人来说,模型能回答的一些问题也需要我花相当长时间才能答出来。这是基准视角。我们会频繁评估,也非常谨慎地保留测试集。但人们常担心对基准过拟合,或所谓 benchmaxing(刷榜 / 跑分)。我认为这些担忧并没有很充分的依据。
另一个更让我有信心的方面是:内部人们使用模型来提升生产力的时间在不断增加。每一代新模型都很明显能做新的事情,并且在研究与日常工程工作中比上一代提供更大的帮助。这也说明模型在变得更有能力,并在做非常有用的事情。
Matt Turck:如果把视角拉远,你还会对现状感到惊讶吗?从你的角度看,我们相比几年前你的预期是领先、按计划,还是落后?
Sebastian Borgeaud:事后说“按计划”很容易。如果我诚实面对自己,我觉得我们领先于我原本以为能达到的位置。2019 或 2020 年开始做大语言模型工作时,很难相信我们现在所做一切的规模,以及模型如今的能力。当时如果看 Scaling Law ,它们确实指向这个方向,也有一些人非常相信这些。但我不确定当时我是否会重注押它一定会实现并达到今天的状态。
一个随之而来的问题是:如果未来还能保持过去五年的同类进展,这会把我们带到哪里?我认为未来几年会发生非常酷的事情。
Matt Turck:你认为短期两到三年会走向哪里?AI 会提出新的科学发现、获得诺贝尔奖吗?
Sebastian Borgeaud:这是其中一部分。在科学方面,DeepMind 历史上做了很多工作,也有大量工作继续朝这个方向推进。我认为未来几年会有一些重大的科学发现。
另一方面,在我日常的研究和工程工作中,我也很期待我们如何用这些模型推动更多进展,同时更好地理解我们正在构建的系统,并进一步发展我们自己的理解和研究。
Matt Turck:行业里有一个重要主题:自动化 AI 研究与工程。如果外推,会通向类似“AI 2027”的情景,出现某种断点。从务实角度,你今天在工作中使用 AI 是什么样?你觉得几年后会意味着什么?
Sebastian Borgeaud:我认为与其说是自动化,不如说是让我们更快,让我们把更多时间投入到更高层次的研究部分。语言模型研究的日常工作中,我们要处理基础设施层面非常复杂、非常大的系统,所以相当多时间用在跑实验、盯实验、分析数据、收集结果。真正有意思的部分是形成假设并设计新实验。我认为后两部分仍将主要由我们来做。第一部分,尤其在接下来一年,随着更多能动式(agentic)工作流被启用,会越来越能够加速我们的工作。
Matt Turck:你认为各个前沿 AI 实验室基本都在朝同一个方向做同样的事情吗?几乎每周或每月都有新模型,我们已经被“惯坏了”。Gemini 3 刚发布时,几乎就在我们录制前两小时,GPT 5.2 也发布了。你怎么看?未来会怎样?会有人脱颖而出吗?
Sebastian Borgeaud:不同实验室的工作确实有相似之处,底层技术也相似。如果大家都在训练类似 Transformer 的模型架构,我不会惊讶。但在其之上,确实存在专业化:研究树上不同分支会被不同公司探索与利用。例如,DeepMind 在视觉与多模态方面一直很强,这一点今天仍然成立,也体现在使用方式与基准表现中。推理方面,OpenAI 提出了第一个模型,但我们也有相关研究脉络。所以有相似之处,但并不完全相同。
至于未来是否会有人脱颖而出,我不确定。有一点很清楚:今天要在 Gemini 这样的模型上继续取得进展,确实需要很大的团队和大量资源。但这并不意味着今天的方式就是最优的。颠覆性研究可能出现,使得更小团队在某种形式上实现超越。这也是我喜欢在 Google 的原因之一:Google 有做更探索性研究的历史,研究覆盖面很广,而且这些研究很多时候与 Gemini 并行推进,我们也能利用其中一些进展并将其带入 Gemini。
Matt Turck:在 DeepMind 或行业其他地方,是否有团队在半秘密或完全秘密地研究“后 Transformer”架构?有一天会突然出现让大家惊讶的成果吗?
Sebastian Borgeaud:我相信有。Google 和 DeepMind 内部确实有团队在模型架构方面做研究。至于这些研究是否会成功,很难说,因为研究想法真正能奏效的很少。在此期间,一家公司相对另一家的核心优势,可能就是人才质量。
Matt Turck:我提到的那条 Oriol 的推文,被 Demis Hassabis 引用转推。他说真正的秘密是研究、工程和基础设施的结合。这是 Google 的“秘方”吗?你们做了垂直整合(端到端整合)?
Sebastian Borgeaud:这确实有帮助,是重要的一部分。研究与工程的界限也很有意思。我认为随着时间推移,这条界限变得模糊:在这些很大的系统上工作时,研究看起来像工程,工程也反过来像研究。这种思维方式在 DeepMind 过去几年发生了变化:以前可能更偏传统研究心态,但现在做 Gemini 更像研究工程。
基础设施也非常重要。我们在构建超级复杂的系统,因此拥有可靠、可用、可扩展的基础设施,是不让研究工程被拖慢的关键。Gemini 3 是在 TPU 上训练的,不是在英伟达芯片上训练的,这体现了端到端整合。
Sebastian 的工作内容与研究品味的养成
Matt Turck:你是 Gemini 3 的预训练负责人之一。这具体意味着什么?
Sebastian Borgeaud:这项工作包含几部分。第一部分是研究:让模型变得更好。但现在不太是我亲自跑实验,而是帮助设计实验,并与团队成员一起审查结果。
第二部分是协调与集成。团队规模很大,在预训练侧包含数据、模型、基础设施、演进等,日常参与的人可能有 150 到 200 人。把所有人的工作协调成一个能共同构建的整体很复杂,也需要时间。对我来说这很重要,因为能把每个人的进步释放出来,才是我们取得最大进展的关键,而不是让少数人短期跑在前面。短期可能有效,但长期真正成功的是能整合很多人的工作。
Matt Turck:你在哪里长大?你是如何成为今天的你?
Sebastian Borgeaud:我在欧洲多个地方长大,搬家比较多。我出生在荷兰,7 岁时搬到瑞士。父亲来自瑞士,母亲来自德国。我大部分学校教育以及高中开始阶段在瑞士完成,主要使用法语,也有德语部分。15 岁时我搬到意大利,在那里完成高中,大概到 19 岁。那时我原本打算去苏黎世联邦理工学院学习,但某天早上查排名时看到剑桥排在前面,就决定申请。几个月后收到录取,于是搬到剑桥,在计算机实验室完成本科和硕士。
Matt Turck:你成长过程中是数学很强、偏理工、偏计算机的孩子吗?
Sebastian Borgeaud:我父亲有技术背景。我大概 10 或 11 岁开始和他一起写程序学习,一直很喜欢。我在学校的数学和科学一直比较轻松,数学考试几乎不需要复习也能考得很好。这在大学里明显改变,但那就是我的高中经历。
Matt Turck:你从学校到现在的路径是什么?
Sebastian Borgeaud:这也比较幸运。硕士期间有一门课的授课人也是 DeepMind 的研究员。最后一节课结束后,我去问他能否给我内推。他让我发简历给他看看能做什么,我由此获得了 DeepMind 面试机会。那是 2018 年。我大学毕业后以研究工程师身份加入 DeepMind(当时还不是 Google DeepMind)。
Matt Turck:你最开始做什么?后来如何发展到成为 Gemini 3 的预训练负责人之一?
Sebastian Borgeaud:我最开始做强化学习方向:训练无监督网络,在 Atari 环境中学习关键点,尝试让智能体玩 Atari。我做了大约 6 个月,但不太喜欢这种偏合成的部分。我更想做真实世界数据,产生更直接的真实世界影响。我总体更喜欢做“能用起来的东西”,不太喜欢纯粹学术式研究。
这促使我转向表征学习:构建或训练能形成良好表征、可用于不同任务的神经网络。我参与的第一个项目叫“从真实世界数据中学习表征”。当时我们不得不把“真实世界数据”写进项目名里,因为否则大家会默认是合成环境或合成数据;这一点后来完全改变。
之后在大语言模型与 Transformer 方面,我们研究 Transformer 架构,以及 BERT、XLNet 这类模型,学习这些表征并尝试改进。
Matt Turck:你做过 RETRO,对吗?能谈谈吗?
Sebastian Borgeaud:之后我们开始做大规模化大语言模型。首先是 Gopher,我认为那是 DeepMind 发表的第一篇大语言模型论文。那时团队大概 10 到 12 人,已经很清楚这类研究无法靠个人完成。
这也是我开始做预训练、做大规模预训练的阶段。我形成了自己的研究取向,也很享受这项工作。我们训练了一个密集 Transformer 模型,参数规模约 2800 亿,数据约 3000 亿 token。现在我们不会再用当时那样的方式做事,但那是一次很棒的学习经历。
之后出现了两个项目:Chinchilla 与 RETRO。Chinchilla 重新审视模型规模与数据规模如何扩展,尤其从训练计算量最优的角度:训练计算量固定时,如何训练出最好的模型?应该增加模型规模还是增加数据规模?我们重新审视了 OpenAI 的相关工作,发现相较于扩展模型规模,更应该更快扩展数据规模。这在今天仍然很相关,因为它影响训练后推理服务成本以及使用成本。
RETRO 更偏架构创新:研究如何通过给模型加入从大规模文本语料库检索的能力来改进模型。与其让模型把所有知识都存进参数里,我们让模型在训练和推理时都能查找特定内容。
Matt Turck:你提到“research taste”。这是什么意思?对研究者有多重要?
Sebastian Borgeaud:这很重要,也难量化。第一,研究不是孤立的;你的改进必须能与其他人的研究整合。假设你让模型变好,但让其他人使用模型难度增加 5%,这不是好权衡,因为会拖慢其他人的研究,累积下来会拖慢长期进展。
第二,要对复杂性敏感。复杂性具有主观性,但我们有复杂性预算,也有研究风险累积的上限。意识到并管理它很重要。很多时候我们不一定用性能最强的版本,而是愿意牺牲一些性能,选择更低复杂度的版本,因为这能支持未来取得更多进展。
Matt Turck:这也包括对什么可能有效的直觉判断吗?毕竟算力有限。
Sebastian Borgeaud:是的。有些人这方面更强,经验也很重要。研究侧确实受算力瓶颈限制;如果算力更多,会更快取得更多进展。你需要判断研究树上哪些方向值得探索、做哪些实验。大多数研究想法都会失败,你需要判断何时该转向别的方向,何时该继续推进。深度学习里,负面结果并不一定意味着方法不行,往往只是还没把它做成,意识到这一点也很难。
Matt Turck:你们如何平衡短期与长期?
Sebastian Borgeaud:总有关键路径事项需要做:某部分需要改进,或已知某部分不够好。我们会投入很多精力去修复这些问题。原因之一是它们能确定性地让模型变好,是较安全的投入;原因之二是那些不够好、不够完美的地方,往往在扩大规模或模型更强时暴露问题,所以需要认真解决。
另一部分是探索性研究:可能进入下一版或再下一版 Gemini 的想法,潜在收益更大,但尚未完全验证。如何平衡没有明确答案,也有周期性:做 scale-up 时探索性研究更多;临近扩大新架构或新模型规模时,会更偏执行导向,重点在去风险、补齐最后不确定因素。
预训练 Scaling Law 已死?从无限数据向有限数据的深层转变
Matt Turck:研究与产品之间的张力如何?会不会因为与其他实验室竞赛而有压力,比如为了某些基准目标?
Sebastian Borgeaud:我认为在 Google 这类压力很少,因为领导层有研究背景。他们知道可以强推某些基准或目标,但最终重要的是研究进展与把研究做成。我个人日常几乎不感受到这种压力。
Matt Turck:DeepMind 的团队如何组织?预训练有几百人?是否有后训练、对齐团队?大家如何协作?
Sebastian Borgeaud:我们有预训练团队、后训练团队。预训练侧有人做模型、数据、基础设施,也有评估(eval)。很多人低估了评估研究的重要性,但它很难做好。也有大型团队做基础设施和上线服务。
Matt Turck:Gemini 3 用起来和 2.5 很不同。是否有一个关键架构决策解释差异?你会怎么描述架构?
Sebastian Borgeaud:从高层看,架构与上一代相比变化不大,更像是多个因素叠加带来的大幅改进。它是基于 Transformer 的混合专家(MoE)架构。粗略看,你仍能在其中辨认出原始 Transformer 论文里的很多组件。
Matt Turck:能用科普方式解释 MoE 吗?
Sebastian Borgeaud:Transformer 大体有两块:注意力模块负责在不同 token 之间混合信息;前馈模块更多提供模型推断所需的“记忆”和计算能力,它对单个 token 计算,因此可以并行。在原始 Transformer 中,这部分是一个密集计算的隐藏层:输入线性变换到隐藏维度,经过激活函数,再线性变换回输出。
混合专家的核心想法是把“使用的计算量”和“参数规模”解耦,通过动态路由,把计算分配到某些“专家”上执行,而不是把计算量与参数规模完全绑定。
Matt Turck:Gemini 原生多模态。从实际角度看,这意味着什么?是否会更贵?
Sebastian Borgeaud:原生多模态意味着不分别训练图像模型、音频模型、文本模型,而是同一个模型、同一个神经网络共同处理不同模态。
成本大致有两类。第一是复杂性成本:做的事情更多,不同模态会相互作用,与研究中的不同部分产生交互,因此需要花时间处理复杂性。第二是计算成本:图像输入通常比纯文本大,朴素处理会更贵,但也有很多研究在提升效率。我认为收益总体上远大于成本,这也是我们训练这些模型的原因。
Matt Turck:2025 年很多人讨论“预训练 Scaling Law 已死”。Gemini 3 是否证明 Scaling Law 仍在继续?
Sebastian Borgeaud:这些讨论对我来说有点奇怪,因为我的经验不匹配。规模在预训练中很重要,是让模型变好的关键方面,但人们高估了它:它重要,但不是唯一因素。规模带来的好处相对可预测,这就是 Scaling Law 告诉我们的。但这只是其中一部分;架构创新与数据创新同样重要,甚至今天可能比纯扩规模更重要。不过规模仍然重要。
Matt Turck:今年后训练出现了强化学习规模化、测试时计算规模化。预训练这边是否也在继续加速?
Sebastian Borgeaud:更合适的说法是这些因素会叠加。规模是一条轴,模型与数据也会提升性能。有时创新带来的收益超过继续扩规模;有时纯扩规模才是正确答案。强化学习规模化也出现了类似现象;因为我们有预训练经验,很多经验教训可以复用到强化学习规模化上。
Matt Turck:Gemini 3 的预训练数据混合是什么?
Sebastian Borgeaud:数据从一开始就是原生多模态的,包含许多不同来源。
Matt Turck:我们会不会用完数据?合成数据今年使用增加。合成数据在哪里有帮助,哪里没有?
Sebastian Borgeaud:合成数据很有意思,但必须非常谨慎,因为很容易用错。常见做法是用强模型生成合成数据,再用更小规模消融实验验证其效果。一个关键问题是:能否用合成数据训练未来的模型,并让这个模型比生成合成数据的模型更强?我们为此花了很多时间思考并做研究。
至于是否用完数据,我不这么认为。我们也在这方面做工作。但更可能发生的是范式转变:从数据无限环境转向数据受限环境,这会改变研究方式与问题思路。一个类比是,大语言模型之前,很多人在 ImageNet 等基准上工作,也处在很数据受限的环境;那个时期的一些技术因此又变得有意思。
Matt Turck:行业里还有“推理轨迹(reasoning traces)训练”的概念:让模型展示推理过程,用来训练下一代模型。你怎么看?
Sebastian Borgeaud:我不能评论具体细节。泛泛来说,这与合成数据问题相关,我们的思路类似。另一个关键主题是:模型如何用更少的数据学习。
我这里的“数据受限”不一定指数据更少,而是指数据是有限的,范式从“无限”转为“有限”。
从另一个角度,架构改进的含义之一是:用同样数据训练能得到更好结果;等价地,也可以用更少数据达到旧模型的同等结果。但就今天所需的数据量而言,我们仍比人类可用的数据量高出好几个数量级。人类还有进化过程等因素,这类高层换算需要很多假设,但一阶近似下,我们确实用得更多
长上下文、注意力机制:未来预训练的重要方向
Matt Turck:你对预训练进展的哪些方向感到兴奋
Sebastian Borgeaud:Gemini 1.5 在长上下文能力上有很大跃迁,这使模型与智能体能处理更长的上下文,例如在代码库上做大量工作时上下文会不断增长。未来一年左右,这方面会有更多创新:让长上下文更高效,也让模型支持更长上下文。
对我们来说,注意力机制方面最近也有一些有意思的发现,会影响未来几个月的研究,我对此非常兴奋。
我也想强调:进展往往来自许多因素累积。我们已经看到很多小到中等规模的改进:修复某个问题、修复某个 bug、某项研究显示出前景。这些叠加会推动大量进展。
Matt Turck:RETRO 强调效率,小模型做更多;而 Gemini 3 是海量数据与长上下文。长上下文是否会让 RAG/ 搜索不再需要,一切被折叠进模型?
Sebastian Borgeaud:RETRO 的核心是检索信息而不是存储信息,不一定是为了让模型更小。它更像是让模型在预训练意义上做更多推理,而不是只存知识。这一点今天仍然重要。
直到最近,预训练的迭代周期通常比后训练慢很多,因此预训练侧做大改动风险高、耗时长。RAG 或搜索可以在后训练中做,迭代更快,也能提供很强性能。
但从根本上说,我相信长期答案是以端到端、可微的方式学会这些能力:在预训练(或未来某种训练形式)中,把检索作为训练的一部分,把搜索作为训练的重要部分。我认为强化学习规模化可能开启了这个过程,但架构侧仍有很多工作。这会在未来几年出现,而不是立刻。
我还想强调:让预训练更好的不只有架构,还有基础设施、数据与评估。评估非常难,在预训练中更难,因为要跨两个差距:一是小模型评估要能预测大模型 scale-up 后的方向;二是预训练评估还要能代理后训练之后的效果。评估上的进展非常重要,也很难,它帮助我们判断模型侧或数据侧的改动是否是真实改进。
Matt Turck:你们内部会自己建立一套评估体系,对吗?
Sebastian Borgeaud:是的,而且越来越是这样。外部基准可以用一段时间,但很快会被污染:它们会以不同形式出现在论坛或网络各处。如果训练数据覆盖到这些内容,就很难检测评估泄漏。要防止自欺、避免误以为自己更强,唯一办法是创建内部留出的评估集,并真正把它们留出。
Matt Turck:对齐在预训练层面重要吗,还是主要在后训练?
Sebastian Borgeaud:主要是后训练,但确实有一些部分与预训练相关,我们也会考虑。我不能讲太多细节。
Matt Turck:如果核心数据来自互联网,而互联网有很多糟糕内容,对齐的最基础做法是否就是把某些内容从模型中排除?
Sebastian Borgeaud:我没有明确结论。但你不希望模型去做那些糟糕事情。从根本层面,模型需要知道那些事情是什么,因此至少要训练一部分内容,让它知道并学会避开;否则用户提到糟糕内容时,模型可能连在说什么都不知道,也就无法判断“这是糟糕的事情”。
持续学习很重要
Matt Turck:Deep Think 是不同模型,还是同一模型的一部分?
Sebastian Borgeaud:我不能评论太多。
Matt Turck:模型“思考”10 秒、20 秒时幕后发生什么?
Sebastian Borgeaud:核心是生成“思考”。不只是在模型深度方向做计算,也在序列长度方向做计算,让模型在序列上进行更多推理。模型会形成假设、检验假设、调用工具验证、进行搜索调用等,最后可能查看思考过程并给用户确定答案。
Matt Turck:智能体部分,以及 Google 的 antigravity 项目,你觉得哪里有意思?
Sebastian Borgeaud:我们日常很多工作偏执行,例如盯实验。我认为智能体在这里影响最大。
从预训练角度看,感知与视觉很重要,因为模型需要与电脑屏幕交互;屏幕理解做得好非常关键。
Matt Turck:vibe coding(氛围编程)是预训练带来的还是后训练带来的?如何把“氛围”做进模型?
Sebastian Borgeaud:你问五个研究者会得到五种答案。也有人谈“大模型气场”,认为更大模型可能“感觉”不同。我不会用这些词来表述,但我认为模型“氛围 / 感觉”更多来自预训练,而非后训练。至于 vibe coding 本身,我认为更偏强化学习规模化与后训练:可以获得大量数据,把模型训练到在这方面做得很好。
Matt Turck:什么是持续学习?它会如何影响重训?
Sebastian Borgeaud:持续学习是让模型随着新知识出现而更新。例如明天出现新科学突破,我们昨天训练的基础模型在预训练阶段并不知道它。
过去几年这方面进展很大,主要在后训练:使用搜索工具并进行搜索调用,模型在某种意义上能访问新信息。这也类似 RETRO 的思路:通过检索,把知识语料与推理部分外化。
预训练侧也有关联:如果能持续扩展用户上下文,模型在上下文中获得越来越多信息,在某种程度上就具备持续学习成分。
更范式性的变化是:是否能改变训练算法,使模型可以在来自现实世界的数据流上持续训练。
最值得关注的研究热点
Matt Turck:持续学习之外,你觉得今天哪些研究方向最值得关注?
Sebastian Borgeaud:很多小改动仍在累积,这是历史上推动进步的主要方式,我不认为它会停止。长上下文架构与研究是一个方面;注意力机制是一个方面;从无限数据转向有限数据的范式转变也会带来很多变化与有趣研究。
另一个重要方面是:使用模型的人增长很快,因此预训练侧也越来越要考虑上线服务成本。预训练侧能做什么,让模型质量更好、服务更便宜,并在推理时消耗更少资源。
Matt Turck:给想成为你这样的学生或博士生一些建议:几年尺度应该聚焦什么?
Sebastian Borgeaud:越来越重要的是:能做研究,同时理解系统层面。我们在构建复杂系统,能理解从 TPU 到研究的整套堆栈,是一种优势:能发现不同层之间的空白,也能把研究想法一路推演到 TPU 堆栈层面的影响。能做到这一点的人会产生很大影响。应关注研究、工程与系统结合,而不仅是纯架构研究。
我也对 RETRO 那类检索研究很感兴趣。我认为它直到现在才接近成熟,但情况在变化。未来几年,让类似方法对 Gemini 这类领先模型变得可行,并非不合理。
Matt Turck:为什么以前不成熟,为什么可能改变?
Sebastian Borgeaud:与复杂性有关,也与这样一个事实有关:它带来的能力可以在后训练中更快迭代。用搜索与后训练数据,可以用更简单方式给模型提供相似能力。随着后训练与强化学习规模化发展,重心可能再次向预训练侧转移。
Matt Turck:你认为 AI 领域有哪些方向被过度投资?
Sebastian Borgeaud:情况已经好很多。两年前我看到人们还在做专门模型来解决一些任务,而这些任务可能在半年到一年内就会被通用模型覆盖。现在大家更相信:对不需要极度专门化的任务,用通用模型更合理,即使不是当前版本,下一版本可能就能做到。这意味着如何使用模型、以及 harness 等研究变得越来越重要;也包括如何让模型与这些 harness 更稳健、能从错误中恢复。
Matt Turck:对创业公司有什么建议?基础模型越来越强,似乎缩小了创业空间。
Sebastian Borgeaud:可以比较一年前或一年半前模型能做什么,再看今天能做什么,然后外推。模型正在改进的领域会继续改进;也可能有一些领域进展不大,那些可能更值得研究。我没有具体例子,这是总体建议。
Matt Turck:从你个人经历的角度,你对未来一年到两年有什么期待?
Sebastian Borgeaud:我很喜欢日常工作中的一点:与很多人一起工作,并向许多研究人员学习。这在很大程度上驱动着我。每天我来上班都会与非常聪明的人交流,他们会教我以前不知道的东西,我很喜欢这部分。
我已经多次提到:有太多因素会叠加,很多方面仍有改进空间。我非常好奇,因为我看不到这类工作继续带来进步的尽头。能够见证并看到这能把我们带到多远,非常有意思。至少在接下来一年左右,我看不到它会放缓。
参考链接:
https://www.youtube.com/watch?v=cNGDAqFXvew&t=442s
本文来自微信公众号 “AI前线”(ID:ai-front),作者:高允毅,36氪经授权发布。