成功预测239万抗噬菌体蛋白,法国团队利用深度学习模型绘制细菌抗病毒免疫图谱
法国巴斯德研究所的研究人员开发并微调了三种互补的深度学习模型,用于大规模预测抗噬菌体功能。其中,ALBERT_DF 模型仅依赖局部基因组语境进行推断;ESM_DF 利用蛋白质语言模型解析氨基酸序列;GeneCLR_DF 则整合序列信息与基因组语境。
在微观世界中,细菌与噬菌体之间的「军备竞赛」从未停止。噬菌体的数量通常约为细菌的 10 倍,它们以细菌为宿主完成自身增殖;与此同时,细菌在长期进化中发展出高度多样化的抗病毒防御体系。目前,已有超过 250 种抗噬菌体系统通过实验验证,涵盖限制-修饰系统、CRISPR-Cas 系统等多种机制,且新的系统仍在不断被发现。这一现象表明,细菌防御体系的复杂性和多样性,很可能远超当前认知。然而,受限于传统实验方法和计算手段,大量潜在的抗噬菌体机制仍隐藏在细菌基因组中,尚未被系统性发掘。
既有研究注意到,已知抗噬菌体系统在蛋白质序列和基因组组织层面存在一定共性特征,例如特征性结构域的反复出现,以及在「防御岛」或前噬菌体区域的富集分布。这些规律提示:如果能够识别并利用这些共性模式,或许可以在全基因组尺度上系统挖掘未知的抗噬菌体系统。
基于这一思路,法国巴斯德研究所的研究人员开发并微调了三种互补的深度学习模型,用于大规模预测抗噬菌体功能。其中,ALBERT_DF 模型仅依赖局部基因组语境进行推断;ESM_DF 利用蛋白质语言模型解析氨基酸序列;GeneCLR_DF 则整合序列信息与基因组语境。在统一基准测试中,GeneCLR_DF 表现最优,达到 99% 的精确率和 92% 的召回率。
基于这一高精度模型,研究进一步开展了泛基因组尺度的抗噬菌体系统预测。结果显示,在 32,000 多个细菌基因组中,一个典型细菌基因组中约有 1.5% 的基因参与抗病毒防御;更重要的是,超过 85% 的预测防御相关蛋白家族此前从未被关联到免疫功能。最终,模型共预测出约 239 万个抗噬菌体蛋白,其中大量属于单基因防御系统,并基于基因共现关系定义了约 23,000 个操纵子家族,而绝大多数此前与抗病毒防御毫无关联。这些结果共同勾勒出一幅系统性的细菌抗病毒免疫图谱,显示其规模与多样性远超既有认知。
相关研究成果以「Protein and genomic language models uncover the unexplored diversity of bacterial immunity」为题,已发表于 Science。
研究亮点:
* 共预测出 239 万个抗噬菌体蛋白,其中 85% 此前从未与免疫功能关联;
* 典型细菌基因组中,约 1.5% 的基因专门承担抗病毒防御任务;
* 预测出约 2.3 万个操纵子家族,绝大多数为首次发现;
* 大量预测的防御蛋白以单基因系统形式存在,挑战了防御功能通常由多基因协同完成的传统观点。
论文地址:https://www.science.org/doi/10.1126/science.adv8275
数据集:基于 1.23 亿蛋白质与 3.2 万基因组
该研究首先利用 DefenseFinder 与 PadLoc 工具,对 RefSeq 数据库中共 32,798 个完整细菌基因组进行系统扫描,从而对已知抗噬菌体系统进行定量刻画。在约 1.23 亿个蛋白质中,DefenseFinder v1.3 识别出 521,360个,占比0.4%,属于抗噬菌体系统组分,PadLoc 识别出 805,357 个,占比 0.65%。
值得注意的是,大量防御系统最初是通过与已知系统的基因组关联被发现的,这种关联可以通过「防御分数」在蛋白家族层面进行量化,该分数主要衡量某一蛋白家族在基因组中与已知防御蛋白共现的频率。
按基因家族计算的防御分值
基于防御分数方法,如下图所示,研究人员共识别出 37,959 个蛋白家族(占比 4.6%),作为候选抗噬菌体家族。随后,研究剔除了 7,799 个如整合酶等与核心生物学功能或可移动遗传元件相关的家族,最终得到 30,160 个精选候选家族(占比 3.7%)。
RefSeq 数据库经 DefenseFinder 鉴定为阳性(粉色)与阴性(蓝色)的防御分值分布
然而,这一方法存在明显局限:其一,它仅适用于包含五个以上同源序列的蛋白家族,从而排除了约 23% 的蛋白;其二,一部分抗噬菌体系统并不位于典型防御岛中,即便具有防御功能,其防御分数也可能偏低,从而被遗漏。
为克服上述局限并更全面捕获防御相关的基因组信号,该研究进一步构建了适用于深度学习的数据集。在 ALBERT_DF 模型框架下,研究将细菌基因组进行「语言化」建模:将每个蛋白家族视为一个「单词」,将相邻基因片段视为一个「句子」。
由于完整数据集中超过 800 万个不同蛋白家族,远超传统语言模型词汇表规模,研究将训练范围限制在放线菌门,构建了包含 10,796 个基因组的数据集,并将基因聚类为 420 万个蛋白家族,同时将词汇表限制为最常见的 524,288 个家族,从而覆盖约 89% 的蛋白。
对于 ESM_DF 和 GeneCLR_DF 模型,研究构建了 Gembase_DF 数据集:如下图所示,以 DefenseFinder 标注的 521,360 个抗噬菌体蛋白作为正样本,以 1.16 亿个存在于超过 99% 的基因组高度保守的核心基因以及 1,400 万个非防御功能的可移动遗传元件基因作为负样本,其余蛋白作为未标注候选保留。
为避免训练、验证与测试之间的信息泄露,研究将同一防御系统的所有蛋白划分到同一数据折,并使用 MMseqs2 去除跨数据折的残余同源性,确保模型评估的严格性。
Gembase_DF 蛋白数据集构建流程
模型架构:三层深度学习模型逐级递进
为突破传统「防御分数」方法的局限,研究团队构建了一套相互补充、逐步递进的深度学习框架,分别面向未知系统发现、泛基因组尺度挖掘与高精度整合预测三个目标,具体包括基于基因组语境的 ALBERT_DF、基于蛋白质序列的 ESM_DF,以及融合序列与语境信息的 GeneCLR_DF。
其中,ALBERT_DF 侧重从基因「邻域关系」中学习功能信号,具备发现新型防御系统的能力;ESM_DF 直接利用氨基酸序列建模,具有良好的跨序列泛化能力;而 GeneCLR_DF 则在统一框架中整合两类信息,在识别精度与预测覆盖范围之间实现更优平衡。
ALBERT_DF 模型基于一个关键观察:抗噬菌体系统在基因组中往往呈簇状分布,其内部及邻近基因之间存在稳定的组织模式。基于这一特征,研究将自然语言处理中的 ALBERT 架构引入基因组建模,将蛋白家族视为「词」,将基因排列视为「句法结构」,通过预测被掩码的基因学习局部语境。
与基于序列相似性的传统方法不同,这种建模方式直接利用基因组组织信息,因此更有潜力识别与已知系统缺乏同源性的全新防御机制。不过,由于其依赖离散化的「词汇」表示,该类方法在跨物种扩展时存在天然限制。
ALBERT_DF 模型
ESM_DF 模型则从另一条路径出发,直接作用于蛋白质氨基酸序列。该模型通过大规模预训练学习残基之间的协同变化与远程序列关系,从而在不依赖人工特征的情况下提取功能信号。经微调后,ESM_DF 能够对任意蛋白进行打分,判断其是否参与抗噬菌体防御。这一路径显著提升了方法的适用范围,使其能够在泛基因组尺度上运行。但与此同时,ESM_DF 的判别能力在一定程度上仍依赖序列相似性,因此更擅长识别已知防御系统的远缘变体,对于缺乏同源性的全新结构域识别能力相对有限。
ESM_DF 模型
在此基础上,GeneCLR_DF 模型被提出,用于整合序列与基因组语境信息。该模型采用对比学习框架,为每个基因同时学习两种表示:一类来自蛋白质序列,另一类来自其基因组邻域。通过训练模型判断这两种表示是否对应同一基因,从而在表示空间中实现两类信息的对齐。
这种设计带来了关键优势:当某些基因在序列层面缺乏同源性时,其所处的典型基因组语境仍可提供识别线索;反之,当语境信息不典型时,序列特征仍可支撑判别。通过这种互补机制,GeneCLR 在后续预测中同时兼顾了对新型系统的发现能力与大规模应用的可扩展性。
GeneCLR_DF 模型
总体来看,这三类模型形成了一条清晰的技术路径:从基于语境的局部模式学习,到基于序列的全局泛化,再到多源信息的统一建模。这种分层设计不仅避免了单一方法的局限,也为系统性发掘未知抗噬菌体机制提供了更具普适性的技术框架。
实现 99% 精确度和 92% 召回率
在实验验证中,该研究首先评估了 ALBERT_DF 的预测能力。模型共预测出 1,930 个候选抗噬菌体蛋白家族,其中约 33% 与防御分数方法结果重叠。研究人员进一步选取 10 个既无防御分数支持、也缺乏已知同源性的候选系统,在白色链霉菌中表达并接受 12 种噬菌体挑战,其中 6 个系统表现出稳健保护,使噬斑形成单位降低超过 100 倍。这些系统(如「谷神星」「盖布」)包含代谢酶及功能未知的小蛋白,超出经典防御结构域范畴,说明基于基因组语境的方法能够发现传统手段难以识别的新型防御机制。
利用 ALBERT_DF 从链霉菌基因组中预测候选防御系统
在 ESM_DF 的验证中,研究在大肠杆菌中测试了一组高分候选,其中 6 个系统表现出抗噬菌体能力,包括可抵御多类噬菌体的 ESM_DF。这些系统既包含已知防御结构域的变体,也包含如 DUF7946 等此前未与抗噬菌体功能相关的结构域,表明 ESM 不仅依赖序列同源性,也能识别更广泛的功能特征,但整体仍偏向对已知系统的扩展。
ESMDF 预测的候选系统及各系统在大肠杆菌中异源表达时对应的防御表型
GeneCLR_DF 在系统评估中表现最为突出。在测试集上,其预测分数可清晰区分防御与非防御蛋白,并在进化分析中对逆转录子、CBASS、Thoeris 等关键防御分支稳定赋予高分,而 ESM-650M_DF 仅能部分识别。
ESM-650MDF 与 GeneCLRDF 在已知抗噬菌体防御蛋白结构域的进化树上的预测结果
在不同基因组语境(防御岛、整合子、前噬菌体区域)中,GeneCLR_DF 均能准确定位防御模块。定量结果显示,在阈值 −0.74 时,其精确率达 99%、召回率为 92.4%;在相同精确率下,ESM_DF 仅召回 58%。在 1% 错误发现率下,GeneCLR_DF 可检索 94% 的已知防御家族,显著高于 ESM-650MDF(35%)和防御分数方法(5%),且 56% 的家族仅由其识别;对新增的 110 种系统可回收 75%。在 615,672 个候选蛋白家族中,有 93% 仅由 GeneCLR_DF 检出。
在操纵子层面,基于共线性聚类的分析进一步显示,大量防御结构尚未被认知:85% 的预测蛋白家族仅由 ESM_DF 与 GeneCLR_DF 识别,45% 的操纵子家族及 52.7% 的操纵子簇此前无功能注释。进化分析同样揭示,细菌基因组中防御基因比例的中位数由 0.46% 提升至 1.53%,且大量系统富集于可移动遗传元件,其中 23.5% 位于 MGE 边界内,47.1% 的卫星元件被预测编码防御功能。
将共线性蛋白质家族聚合并为操纵子的计算流程示意图
在分子多样性层面,GeneCLR_DF 将防御相关 Pfam 家族从 934 个扩展至 3,154 个(约占全部 Pfam 的 15%)。同时,超过 40 万个预测蛋白家族缺乏任何 Pfam 注释,其中仅不足 5% 出现在 DefenseFinder 中;超过 3,500 个操纵子家族完全由无已知结构域蛋白组成。这些结果表明,抗噬菌体防御的分子空间仍有大部分尚未被系统表征。
各检测方法(DefenseFinder、GeneCLRDF、ESM650DF)所获基因对应的 Pfam 结构域稀疏曲线
深度学习驱动抗噬菌体防御发现效率跃升
基于深度学习的抗噬菌体系统预测框架,以及由此构建的细菌抗病毒免疫图谱,正在为这一领域打开一条更具可扩展性的研究路径:从以往依赖个案发现的「点状突破」,转向基于模式识别的「系统性挖掘」。这一变化不仅提升了新型防御机制的发现效率,也让学术研究与产业应用之间的衔接更加紧密。
在学术界,这一思路已迅速得到延展。多家研究机构开始将机器学习与基因组分析结合,尝试在更大尺度上识别抗噬菌体系统。例如,美国麻省理工学院团队开发的 DefensePredictor 模型,借鉴蛋白质语言模型的建模逻辑,同时整合基因序列与基因组上下文信息,实现了对抗噬菌体蛋白的高灵敏度识别。该模型在约 17000 个原核生物参考基因组上完成训练,并在独立测试中识别出约 82% 的新型防御系统,进一步验证了「基于模式挖掘未知功能」的可行性。
论文标题:DefensePredictor: A machine learning model to discover prokaryotic immune systems
论文链接:https://www.science.org/doi/10.1126/science.adv7924
在产业界,相关技术也在加速落地。随着抗生素耐药性问题日益严峻,噬菌体及其衍生技术重新受到重视,成为替代或补充传统抗生素的重要方向。Locus Biosciences 作为临床阶段企业,构建了基于工程化噬菌体的平台,将机器学习与合成生物学结合,开发出针对多重耐药大肠杆菌的候选疗法 LBP-EC01,推动噬菌体治疗走向精准化和可控化。
与此同时,Micreos 则从更贴近应用的场景切入,专注于噬菌体及内溶素的产业化。其产品 Listex 已被用于食品加工环节中抑制李斯特菌污染,并获得多国监管批准;Staph Efekt 则利用内溶素的特异性杀菌能力,应用于皮肤护理领域。这类路径强调的是「功能落地」——将抗噬菌体机制转化为具体可用的产品,而不仅停留在实验室验证。
整体来看,从算法模型到实验验证,再到产业应用,抗噬菌体研究正逐步形成一条更完整的链条。可以预见,随着更多数据的积累和模型的迭代,这种以计算为起点、实验为验证、应用为导向的路径,将持续推动人们更深入地理解细菌免疫体系,也更有效地将这些发现转化为现实中的解决方案。
参考链接:https://mp.weixin.qq.com/s/usrVEOeBD5gphhslZahLCAhttps://mp.weixin.qq.com/s/Pxlh69TXSr8ffAp_ul3URw
本文来自微信公众号“HyperAI超神经”,作者:田小幺,36氪经授权发布。