Weltweit größte multikohortenbasierte Proteogenomikstudie: 100 Hochschulen entschlüsseln krankheitsverursachende Gene und neue Medikamentenanwendungen anhand von fast 80.000 Probanden-Daten

38 unabhängige Kohorten, fast 80.000 Probanden beteiligt, über 24.000 pQTL identifiziert

Ein Team aus über hundert Universitäten und Forschungsinstituten, darunter die Queen Mary University of London und die Universität Cambridge, hat eine bisher weltweit größte multikohortenbasierte Proteogenomstudie vorgestellt. Basierend auf einer großen Proteogenom-Metaanalyse, die 38 unabhängige Studienkohorten mit insgesamt 78.664 Probanden umfasste, wurden systematisch 24.738 Protein-Qualitäts-Quantitätssignaturen (pQTL) identifiziert und 1.116 zirkulierende Proteine assoziiert. Dadurch wurden umfassend die weit verbreiteten nah- und fernabliegenden genetischen Regulationsmerkmale auf Proteinebene aufgedeckt.

Das menschliche Genom ist wie ein vollständiges Lebenshandbuch, das alle genetischen Informationen wie Aussehen, Größe, Körperbau und Krankheitsrisiken aufzeichnet. Doch der Prozess der Entschlüsselung des Handbuches verläuft nicht immer linear, und es können viele "kleine Überraschungen" auftreten, darunter auch krankheitsverursachende Mutationen, die Menschen anfällig für bestimmte Krankheiten machen. Noch problematischer ist, dass die meisten krankheitsverursachenden Mutationen in den "nicht direkt proteinkodierenden" nicht-kodierenden Regionen des Genoms liegen. Dieser "Black-Box-Mechanismus", welcher Gen und durch welchen Mechanismus die Krankheit verursacht, schränkt stark die Fähigkeit ein, krankheitsverursachende Gene und Mechanismen abzuleiten. Als die direkten Ausführenden der Genfunktion sind die Tausende von Proteinen, die im menschlichen Blut zirkulieren, der Schlüssel zur Entschlüsselung des Black-Box-Mechanismus und zur Verbindung zwischen nicht-kodierenden Varianten und krankheitsrelevanten Mechanismen.

Bisher hat die Proteogenomforschung wichtige Fortschritte bei der klinischen Pathogenese und potenziellen Arzneizielpunkten erzielt, doch gibt es immer noch Einschränkungen bei der systemischen und skalierbaren Anwendung in der menschlichen Biologie. Erstens waren die vergangenen Studien fast ausschließlich auf proximale cis-wirkende Varianten (d. h. cis-Protein-Qualitäts-Quantitätssignaturen, cis-pQTL) fokussiert. Nicht-kodierende Varianten können sich jedoch in Regulationsbereichen befinden, die direkt mehrere benachbarte kodierende Gene beeinflussen können oder auch fernabliegende Gene im Genom, die Proteine kodieren, indirekt regulieren können. Zweitens gibt es noch Unzulänglichkeiten bei der Untersuchung der polygenetischen Struktur von Protein-Biomarkern, die die Krankheitsdiagnose und Prognose beeinflussen. Drittens erfordert die stabile und generalisierbare Identifizierung von Protein-Qualitäts-Quantitätssignaturen die Wiederholung und Validierung in verschiedenen Bevölkerungsgruppen. Im Bereich der breiten Proteomik werden derzeit jedoch nur sehr wenige solche Bevölkerungsvalidierungsstudien durchgeführt.

Angesichts dieser Probleme hat ein Team aus über hundert Universitäten und Forschungsinstituten, darunter die Queen Mary University of London und die Universität Cambridge, eine bisher weltweit größte multikohortenbasierte Proteogenomstudie vorgestellt. Basierend auf einer großen Proteogenom-Metaanalyse, die 38 unabhängige Studienkohorten mit insgesamt 78.664 Probanden umfasste, wurden systematisch 24.738 Protein-Qualitäts-Quantitätssignaturen identifiziert und 1.116 zirkulierende Proteine assoziiert. Dadurch wurden umfassend die weit verbreiteten nah- und fernabliegenden genetischen Regulationsmerkmale auf Proteinebene aufgedeckt.

Durch maschinelles Lernen wurden die Schlüsselwege, Zelltypen und Gewebequellen, die die Abundanz zirkulierender Proteine regulieren, weiter analysiert, und die zentrale Rolle der N-Glykosylierung im Proteinregulationsnetzwerk wurde festgelegt. Darüber hinaus kann die Unterscheidung zwischen cis- und trans-genetischer Regulation von Proteinen die zugrunde liegenden Mechanismen verschiedener biologischer Phänotypen effektiv erklären, was Beweise für die Suche nach potenziellen Proteinarzneizielpunkten bei bestimmten Krankheiten liefert. Durch die trans-Site-Dreieckskorrelationsanalyse wurden weiterhin die Belege für die "Neuverwendung alter Medikamente" tiefergehend ausgegraben.

Die zugehörigen Forschungsergebnisse wurden unter dem Titel "Multi-cohort proteogenomic analyses reveal genetic effects across the proteome and diseasome" in der Zeitschrift Cell veröffentlicht.

Highlights der Studie:

* Bisher weltweit größte multikohortenbasierte Proteogenomstudie, die 38 unabhängige Studienkohorten mit insgesamt 78.664 Probanden umfasst

* Identifizierung von 24.738 Protein-Qualitäts-Quantitätssignaturen und Assoziation mit 1.116 zirkulierenden Proteinen, umfassende Aufdeckung der weit verbreiteten nah- und fernabliegenden genetischen Regulationsmerkmale auf Proteinebene

* Systematische Erläuterung der Regulationsgesetze zirkulierender Proteine auf genetischer Ebene, was wichtige theoretische Beweise und Datenressourcen für die Analyse der molekularen Mechanismen menschlicher Krankheiten, die Erforschung innovativer Therapieziele und die Durchführung von Medikamentenneuverwendungsprojekten liefert

Link zur Studie: https://www.cell.com/cell/fulltext/S0092-8674(26)00385-5

Die Kern-Daten der größten Studie: 38 internationale Kohorten und fast 80.000 Probanden beteiligt

Diese Studie ist die weltweit größte multikohortenbasierte Proteogenom-Metaanalyse. Es wurden 38 internationale Kohorten integriert, die 78.664 Probanden europäischer Herkunft umfassten. Basierend auf der Olink-Hochdurchsatz-Proteomtechnologie wurden 1.161 Blutproteinziele nach der Zusammenfassung gemessen. Schließlich wurden 24.738 präzise pQTL (einschließlich 5.040 cis-pQTL und 19.698 trans-pQTL) identifiziert, und es wurden die genetischen Regulationsdaten von 1.116 effektiven Proteinen erhalten.

Übersicht über die Studie

SCALLOP-Metaanalysen: Umfassen die genomweiten Statistiken von 37 Kohorten und 1.194 Blutproteinziele. Die Probanden waren hauptsächlich von europäischer Herkunft. Bei diesen Daten wurden die Antikörper-basierten Proteomikmessungen mit mindestens einer der 13 Target-96-Messplatten von Olink durchgeführt. Jede Platte kann 92 Proteinziele messen, die auf dem Gebiet der Kardiologie, Immunologie, Entzündung, Neurologie und Stoffwechsel usw. liegen.

UK Biobank (UKBB): Umfasst 48.017 Probanden europäischer Herkunft. Bei diesen Daten wurden die Proteomikmessungen mit der Olink Explore 1536-Plattform erstellt. Ebenso wurde die Antikörper-basierte Technologie verwendet, um 1.463 Proteinziele zu messen.

Stufenweise maschinelles Lernklassifikationsmodell

Im Rahmen dieser Studie besteht das zentrale Ziel der Anwendung von maschinellen Lernmodellen darin, systematisch und automatisch alle trans-pQTL außerhalb der Hauptgewebeverträglichkeitskomplexregion (MHC) in großem Maßstab mit "Effektgenen" zu versehen, um die langfristige Herausforderung zu lösen, die Effektgene in distalen Genomregionen mit Protein-Qualitäts-Quantitätssignaturen in Bezug auf die Blutproteinspiegel zu lokalisieren. Angesichts dieser Herausforderung haben die Forscher inspiriert von der ProGeM-Architektur ein stufenweise maschinelles Lernklassifikationsmodell entwickelt.

Zunächst wurden für jede genetische Variante oder deren Alternativvariante (r² > 0,6) multi-dimensionale biologische und genomische Anmerkungen integriert. Die Anmerkungen auf Variantenebene umfassen die Entfernung zwischen der Variante und dem Genkörper innerhalb eines 1-Mb-Basenfensters und die potenzielle funktionelle Auswirkung, die mit dem Variante-Effekt-Vorhersagewerkzeug (VEP) abgeleitet wurde.

Gleichzeitig wurden für jedes Gen innerhalb des 1-Mb-Basenfensters Anmerkungen auf Genebene vorgenommen, einschließlich der Erfassung von relevanten Beweisen für die Kolokalisierung von Proteinabundanz-Genexpressions-QTL basierend auf GTEx v8, der Assoziation mit seltenen Variantenlasten, der Prüfung von Literaturdaten mit dem OmnipathR 3.10.1-Paket, um zu entscheiden, ob es für trans-Gene, die cis-Proteine kodieren, entsprechende Ligand-Rezeptor/Protein-Komplexe gibt, und die Beurteilung, ob die relevanten Gene an demselben biologischen Weg beteiligt sind, basierend auf KEGG/REACTOME-Anmerkungsinformationen.

Dann wurde der Trainingssatz für das maschinelle Lernmodell weiter aufgebaut. Da es keine weit verbreiteten Goldstandardvarianten für die Genzuordnung gibt, haben die Forscher unter Verwendung früherer biologischer und genomischer Kenntnisse drei teilweise unabhängige "vermutete wahre Positive" (PTP)-Sätze erhalten. Innerhalb jedes PTP-Satzes wurde nur ein cis-Protein beibehalten, um Verzerrungen zu vermeiden, und die anderen Gene innerhalb des 1-Mb-Fensters wurden als negative Proben behandelt. Dies umfasst insbesondere trans-Gene, die Ligand-Rezeptor-Paare kodieren oder mit cis-Proteinen hoch zuverlässige Protein-Komplexe bilden (n = 540), Sentinel-trans-pQTL, die auf funktionelle Varianten abgebildet werden (n = 1.747) und trans-Gene mit signifikanter seltener Variantenlast (n = 1.049). Anschließend wurde der Trainingssatz und der Testsatz im Verhältnis 7:3 nach Genomregionen aufgeteilt und 10 Mal wiederholt, um die Stabilität zu gewährleisten.

Bezüglich der Modellarchitektur und des Trainingsablaufs wurde im Rahmen dieser Studie der Random-Forest-Klassifikator als Modellalgorithmus verwendet. Durch die Eingabe von 10 Trainingssätzen wurde eine dreifache Kreuzvalidierung wiederholt und eine Subsampling-Strategie angewendet, um das Problem der unausgewogenen Datensätze während des Trainings zu behandeln. Das Modelltraining wurde mit dem R-Sprachen-Caret-v6.0.94-Toolkit implementiert, und dann wurde der am besten performende Random-Forest-Modell in jedem Trainingssatz durch die Kappa-Score-Bewertung ausgewählt.

Anschließend wurden die 10 Random-Forest-Klassifikatoren für jeden angenommenen wahren Positivdatensatz verwendet, um die Kandidaten-Effektgene aller trans-pQTL einzeln zu bewerten. Zunächst wurde der Median der Bewertungen der 10 Klassifikatoren unter demselben angenommenen wahren Positivdatensatz genommen, und dann wurden die drei Vorhersagebewertungen addiert. Gleichzeitig wurden bei der Erstellung der Klassifikationsmodelle für jeden angenommenen wahren Positivdatensatz die Merkmalsvariablen, die zur Definition der wahren Positivproben verwendet wurden, ausgeschlossen.

Schließlich zeigten alle drei Klassifikationsmodelle eine stabile und zuverlässige Leistung, wobei der Medianbereich des Kappa-Koeffizienten zwischen 0,54 und 0,57 lag.

Entschlüsselung des Krankheitsmechanismus und Bereitstellung genetischer Beweise für die Arzneiforschung und die Neuverwendung alter Medikamente

Diese Studie basiert auf 38 internationalen Kohorten mit insgesamt 78.664 Probanden und hat eine multikohortenbasierte Proteogenom-Metaanalyse für 1.161 Blutproteinziele durchgeführt, um die genetischen Regulationsmuster der zirkulierenden Proteinspiegel und ihre Assoziation mit Krankheiten systematisch zu erklären.

Identifizierung und Merkmale von pQTL

Insgesamt wurden 14.690 regionsspezifische Sentinel-Varianten identifiziert. Durch Bayes'sche präzise Lokalisierung wurden 24.738 unabhängige zuverlässige Variantenmengen erhalten, die 5.040 cis-pQTL und 19.698 trans-pQTL umfassen und 1.116 Proteinziele abdecken. Davon weisen 87,1 % der Proteine cis-pQTL und 94,1 % der Proteine trans-pQTL auf. 82,3 % der cis-pQTL und 83,3 % der trans-pQTL sind hoch zuverlässige Loci, darunter 278 cis-pQTL und 4.013 trans-pQTL neu entdeckte Loci. Gleichzeitig zeigte sich in den nicht-europäischen Kohorten eine mittlere Korrelation zwischen den Effektgrößen der identifizierten Loci und denen in der europäischen Kohorte (r = 0,6). Dies bestätigt die Robustheit der Ergebnisse über verschiedene Bevölkerungsgruppen hinweg.

Präzise lokalisierte Protein-Qualitäts-Quantitätssignaturen in den SCALLOP- und UKBB-Metaanalysen

Darüber hinaus besteht ein signifikanter Unterschied in der Erklärung der Variation der Blutproteinspiegel durch genetische Loci. Die cis-pQTL erklären im Durchschnitt 8,4 % der Proteinvariation, was signifikant höher ist als bei den trans-pQTL. Jedoch werden Proteine wie ICAM2 und FUCA1 hauptsächlich von trans-pQTL reguliert, und die Erklärung der Variation beträgt 52,7 % bzw. 68,4 %, während die cis-pQTL nur 0,3 % bzw. 6,3 % erklären.

Weiterhin wurde bei 261 Proteinzielen beobachtet, dass es keine signifikante lineare Assoziation zwischen der pQTL-Variationsexploration und der polygenetischen Heritabilität gibt, was darauf hinweist, dass die Identifizierung der pQTL für diese Proteine in dieser Studie nahezu gesättigt ist.

Eigenschaften von Proteinzielen unter genetischer Regulation

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Hundert Hochschulen führen die weltweit größte multikohortenbasierte Proteogenomikstudie durch und entschlüsseln basierend auf Daten von fast 80.000 Probanden krankheitsverursachende Gene und neue Anwendungen für alte Medikamente.

Die Kern-Daten der größten Studie: 38 internationale Kohorten und fast 80.000 Probanden beteiligt

Stufenweise maschinelles Lernklassifikationsmodell

Entschlüsselung des Krankheitsmechanismus und Bereitstellung genetischer Beweise für die Arzneiforschung und die Neuverwendung alter Medikamente

Identifizierung und Merkmale von pQTL

Eigenschaften von Proteinzielen unter genetischer Regulation