百所高校展开全球最大规模多队列蛋白质基因组学研究,基于近8万受试者数据解锁致病基因与老药新用
来自伦敦玛丽女王大学、剑桥大学等上百家院校和研究机构的团队公布了一项迄今为止全球规模最大的多队列蛋白质基因组学研究,依托涵盖 38 个独立研究队列、共计 78,664 名受试者的大规模蛋白质基因组荟萃分析,系统鉴定出 24,738 个蛋白质数量性状位点并关联 1,116 种循环蛋白,全面揭示了蛋白水平存在广泛的邻近及远距离遗传调控特征。
人类基因组就像一本完整的生命说明书,记录着长相、身高、体质、疾病风险等所有遗传信息。但说明书的解密过程并不是按部就班的,期间很可能出现多种「小意外」,其中就包括让人容易患某种疾病的致病变异。更棘手的是,大多数致病变异位于基因组中「不直接编码蛋白质」的非编码区域,这种到底是哪个基因、通过什么机制致病的「黑箱机制」严重限制了人们对致病基因和机制的推断。而作为将基因功能付诸实现的直接执行者,人体血液中循环流动的数千种蛋白质,是解开黑箱机制、连接非编码变异与疾病相关机制的关键。
目前,蛋白质基因组学研究已在临床发病机制与潜在药物靶点方面取得重要进展,但想要系统性、规模化应用于人类生物学仍尚存局限。首先,过去研究几乎完全聚焦于近端顺式作用变异(即顺式蛋白质数量性状位点,cis-pQTL),而非编码变异可能定位于调控区域,即可直接影响邻近多个编码基因,也可远距离间接调控基因组其他位置基因所编码的蛋白质;其次,过去对于影响疾病诊断、预后的蛋白生物标志物的多基因遗传结构研究尚存不足;最后,想要稳定、可泛化地鉴定蛋白质数量性状位点,需要在不同人群中开展重复验证,而目前广谱蛋白质组学领域极少开展此类人群验证研究。
针对于此,来自伦敦玛丽女王大学、剑桥大学等上百家院校和研究机构的团队公布了一项迄今为止全球规模最大的多队列蛋白质基因组学研究,依托涵盖 38 个独立研究队列、共计 78,664 名受试者的大规模蛋白质基因组荟萃分析(meta-analysis),系统鉴定出 24,738 个蛋白质数量性状位点并关联 1,116 种循环蛋白,全面揭示了蛋白水平存在广泛的邻近及远距离遗传调控特征。
通过机器学习进一步解析调控循环蛋白丰度的关键通路、细胞类型与组织来源,明确 N-糖基化在蛋白调控网络中的核心作用。另外,区分蛋白顺式和反式遗传调控差异,可有效阐释不同生物学表型的内在机制,这为某些疾病筛选潜在的蛋白药物靶点提供了证据,进一步借助反式位点三角关联分析,更深层次地挖掘出了「老药新用」的依据。
相关研究成果以「Multi-cohort proteogenomic analyses reveal genetic effects across the proteome and diseasome」为题,发表于 Cell。
研究亮点:
* 迄今为止全球规模最大的多队列蛋白质基因组学研究,涵盖 38 个独立研究队列、共计 78,664 名受试者参与
* 鉴定出 24,738 个蛋白质数量性状位点并关联 1,116 种循环蛋白,全面揭示蛋白水平存在广泛的邻近及远距离遗传调控特征
* 从遗传层面系统阐述了循环蛋白的调控规律,为解析人类疾病分子机制、挖掘创新治疗靶点及开展药物重定位研究提供了重要理论依据和数据资源
论文地址:https://www.cell.com/cell/fulltext/S0092-8674(26)00385-5
最大规模核心数据:38 个国际队列、近 8 万名受试者参与
本次研究为全球最大规模的多队列蛋白质基因组学荟萃分析,整合 38 个国际队列,覆盖 78,664 名欧洲血统受试者,基于 Olink 高通量蛋白质组技术检测汇总后的 1,161 个血液蛋白靶点,最终鉴定出 24738 个精细定位 pQTL(包含 5,040 个 cis-pQTL 和 19698 个 trans-pQTL ),获得 1,116 个有效蛋白的遗传调控数据。
研究概述
SCALLOP meta-analyses:包括 37 个队列、1,194 个血液蛋白靶点的全基因组统计数据,这些受试者以欧洲血统为主。对于这些数据,基于抗体的蛋白质组学检测均采用 Olink 提供的 13 种 Target-96 检测面板中的至少一种完成,每种面板可检测 92 个蛋白靶点,涵盖心血管、免疫、炎症、神经、新陈代谢等相关领域。
UK Biobank(UKBB):包括 48,017 名欧洲血统受试者。对于这部分数据,研究使用的蛋白质组学测量是通过 Olink Explore 1536 平台生成的,同样利用基于抗体的技术,测量了 1,463 个蛋白质靶点。
分阶段机器学习分类器
在本次研究中,运用机器学习模型的核心目的在于系统地为所有位于主要组织相容性复合体(MHC)区域外的 trans-pQTL 自动、准确、大规模地分配「效应基因」,以解决长期以来难以将远端基因组区域中的效应基因定位到与血液蛋白水平相关的蛋白质数量性状位点上这一挑战。针对于此,受到 ProGeM 架构启发,研究人员构建了一个分阶段机器学习分类器。
首先,就特征与注释来源,研究人员为每个遗传变异或其替代变异体(r² > 0.6)整合了多维度生物学与基因组学注释,变异层面注释包括 1 Mb 碱基窗口内变异与基因体的距离、基于变异效应预测(VEP)工具推断的潜在功能影响。
同时,针对 1 Mb 碱基窗口内的每个基因进行基因层面的注释,包括获取基于 GTEx v8 蛋白丰度-基因表达 QTL 共定位的相关证据、稀有变异负荷关联、利用 OmnipathR 3.10.1 版本程序包梳理文献资料并判断是否有反式基因编码顺式蛋白对应的配体-受体/蛋白复合物、基于 KEGG/REACTOME 注释信息判断相关基因是否参与同一生物学通路。
然后,继续构建机器学习模型所需的训练集,由于缺乏广泛应用的基因分配金标准变体,研究人员利用先前的生物学和基因组学知识,获得了三组部分独立的「推定真阳性(PTP)」集合,每组 PTP 集合内的位点仅保留一个顺式蛋白避免偏倚,1 Mb 窗口内其他基因为阴性样本。具体包括编码配体-受体对或与顺式蛋白形成高置信度蛋白复合物的反式基因(n = 540)、映射到功能变异的哨兵 trans-pQTL(n = 1747),以及具有显著稀有变异负荷的反式基因(n = 1049)。随后按基因组区域以 7:3 划分出训练集和测试集,重复 10 次以保证稳定性。
再者,关于模型架构与训练流程,本研究中模型算法采用随机森林分类器(Random Forest),通过输入 10 组训练集执行重复 3 折交叉验证并结合子采样策略,从而在训练过程中处理数据集不平衡问题。模型训练基于 R 语言 caret v6.0.94 工具包实现,然后通过 Kappa 分数筛选评估筛选出每组训练集中表现最优的随机森林模型。
之后利用每组假定真阳性数据集对应的 10 个随机森林分类器,为全部 trans-pQTL 的候选效应基因逐一打分。先取同一假定真阳性数据集下 10 个分类器评分的中位数,再将三组预测评分进行累加。同时,在构建各假定真阳性数据集的的分类模型时,剔除用于定义真阳性样本的特征变量。
最终,三组分类模型均表现出稳定可靠的性能,Kappa 系数中位数区间为 0.54-0.57。
解密致病机制,为药物研发、老药新用提供遗传证据
本次研究基于 38 个国际队列、覆盖 78,664 名受试者,针对 1,161 个血液蛋白靶点开展多队列蛋白质基因组荟萃分析,系统阐释了循环蛋白水平的遗传调控模式及其与疾病的关联。
pQTL 鉴定与特征
研究共鉴定出 14,690 个区域哨兵变种,经贝叶斯精细定位得到 24,738 个独立可信变异集,涵盖 5,040 个 cis-pQTL 与 19,698 个 trans-pQTL,覆盖 1,116 个蛋白靶点。其中,87.1% 的蛋白存在 cis-pQTL,94.1% 的蛋白存在 trans-pQTL;82.3% 的 cis-pQTL 与 83.3% 的 trans-pQTL 为高置信度位点,包含 278 个 cis-pQTL 与 4,013 个 trans-pQTL 新发现位点。同时,在非欧洲血统队列中,已鉴定位点的效应量与欧洲队列呈现中等程度相关,r = 0.6,这验证了结果的跨人群稳健性。
SCALLOP 和 UKBB 荟萃分析中精细定位的蛋白质数量性状位点
另外,遗传位点对血液蛋白水平的变异解释度存在着显著差异,cis-pQTL 平均解释 8.4% 的蛋白变异,显著高于 trans-pQTL;然而如 ICAM2、FUCA1 等蛋白主要受 trans-pQTL 的调控,其变异解释度分别达到 52.7% 和 68.4%,而 cis-pQTL 仅解释 0.3% 和 6.3%。
另外进一步观察 261 个蛋白质靶标,其 pQTL 变异解释度与多基因遗传力无显著线性关联,这表明该研究可能已经对这些蛋白的 pQTL 鉴定已近饱和。
基因调控下蛋白质靶点的特性
基于零膨胀泊松回归模型与 pQTL 存在和数量相关的蛋白质特征
含二硫键、跨膜结构域的蛋白,对应的 pQTL 数量显著更多,可能解释了这些蛋白更容易被遗传调控的原因;而蛋白编码基因的功能约束强度与 cis-pQTL 数量则呈现显著负相关。
具有较高 trans-pQTL 数量的蛋白显著富集分泌型蛋白特征,如糖基化、硫酸化,但缺失锌指结构、DNA 结合结构域等胞内蛋白特征,表明循环蛋白的远程遗传调控与分泌通路密切相关。
trans-pQTL 效应基因与调控通路分析
基于在机器学习框架中整合先验生物学知识,为超过半数的 trans-pQTL (n = 11,261)鉴定出至少一个中等置信度的效应基因,其中 1,534 个为高置信度分配;对三分之二的位点(n = 13,881),候选评分在各基因中的分布表明单一因果基因是最可能的致病基因。
trans-pQTL 的效应基因分析
功能富集分析显示,反式效应基因显著富集于「天冬酰胺 N-糖基化」通路(涉及 143 个蛋白质靶点)、血小板活化(涉及 41 个蛋白质靶点)等,其中 N-糖基化为最常见、最核心的调控通路。
细胞与组织富集结果表明,反式效应基因主要在肝细胞、自然杀伤细胞、内皮细胞、二型肺泡细胞中高表达,揭示肝脏与免疫细胞是循环蛋白远程调控的关键场所。44 个蛋白质-组织对与 76 个蛋白-细胞类型对为非经典分泌来源,证实跨器官通讯在蛋白稳态调控中的重要作用。
分子层面与表型组层面的多效性
在所有识别的独立 pQTL 中,有 43.4% 存在多效性,且 trans-pQTL 的多效性显著高于 cis-pQTL。随后研究将多效性遗传变异分为「分子多效性」、「表型多效性」和「非特异性多效性」三类,其中超半数(533 个中的 332 个)表现出表型多效性,尤其在肝细胞中的表达增强了 2 倍,且优先通过蛋白复合物、配体-受体互作、通路协同方式调控靶蛋白。
分子水平与全表型组水平的多效性
285 个多效性 pQTL 与疾病 GWAS 位点重叠,其关联蛋白显著富集于特定通路,为疾病 GWAS 位点的机制解析提供了新线索。
顺式与反式调控下的疾病表型差异
研究人员将鉴定的 300 个 cis-pQTL 驱动的蛋白-疾病关联,与 FinnGen 项目中超 700 种疾病数据集相结合, 仅有 73 个既获得孟德尔随机化(MR)又获得遗传风险信号的统计共定位分析,这表明了在对疾病潜在候选致病基因进行遗传优先级排序时,需要互补性证据。
在可评估的 115 个关联中,31 个呈现顺式与反式调控效应方向一致,41 个无支持证据,14 个效应方向相反,表明顺式近端调控与反式远端调控对疾病表型的影响存在显著差异。
遗传推断与观察性研究的蛋白-疾病关联分析
整合 UKBB 多达 52,164 名受试者观察性数据,以及泛生物库 129 万余人遗传数据,覆盖 517 种疾病。在 193 个高置信度遗传关联中,仅 52 个在观察性研究中得到方向一致的支持;52,887 个观察性显著关联中,仅 0.06% 获得遗传证据支持。其中,血液 furin 蛋白是少数在遗传与观察性研究中均一致关联高血压、心肌梗死、房颤的靶点,揭示了其潜在的药物开发价值。
trans-pQTL 指导疾病标志物挖掘与药物重定位
超过 90% (307 种疾病中 280 种)的疾病蛋白标志物特征显著富集于 trans-pQTL 关联蛋白,证实反式调控是疾病蛋白标志物的核心遗传基础。研究发现,TYK2 基因错义突变 rs34536443 作为trans-pQTL,调控 BST2、CXCL9/10/11 等多个炎症蛋白,这些蛋白水平升高与类风湿关节炎、银屑病、自身免疫性甲状腺炎风险增加有关,为 TYK2 抑制剂用于自身免疫性疾病的重定位提供了遗传证据。
结语
本研究依托全球最大规模的多队列蛋白质基因组学分析,系统解析了人类循环蛋白质组的遗传调控规律,突破了过往仅聚焦顺式调控的研究局限,首次在大样本水平全面揭示反式遗传调控在循环蛋白丰度调控中的关键作用,并通过机器学习精准定位效应基因,明确 N - 连接糖基化、血小板生物学等核心通路,以及肝脏、免疫细胞等关键调控场所。
尽管本研究尚存在一些局限,比如蛋白质组技术仅覆盖循环蛋白的部分亚型与翻译后修饰、主体为欧洲血统人群,需扩展到更多族群等,但仍旧搭建起非编码遗传变异 — 循环蛋白 — 疾病机制的完整关联框架,不仅为复杂疾病的分子机制解析提供了全新视角,更通过遗传证据锚定血浆 furin、TYK2 等关键靶点,为创新药物研发与老药新用提供了高可信度的遗传依据,推动蛋白质基因组学从基础发现向临床转化迈出关键一步。
本文来自微信公众号“HyperAI超神经”,作者:哇塞,36氪经授权发布。