StartseiteArtikel

DeepMind hat AlphaGenome veröffentlicht, das die Vorhersage von Mutationsauswirkungen für alle Modalitäten und Zelltypen in einer Sekunde abgeschlossen werden kann.

超神经HyperAI2025-06-27 07:12
Es kann bis zu eine Million DNA - Basen analysieren und Vorhersagen mit einer Auflösung auf Einzelbasissebene treffen.

Google DeepMind hat das AlphaGenome-Modell veröffentlicht, das Tausende von molekularen Eigenschaften im Zusammenhang mit seiner regulatorischen Aktivität vorhersagen kann. Gleichzeitig kann es auch die Auswirkungen von Genvariationen oder -mutationen bewerten, indem es die Vorhersageergebnisse von mutierten und unmutierten Sequenzen vergleicht.

Das AlphaGenome-Modell ist ein neues Mitglied in Googles DeepMinds Alpha-Serie. Es kann umfassender und genauer vorhersagen, wie einzelne Variationen oder Mutationen in menschlichen DNA-Sequenzen eine Reihe von biologischen Prozessen bei der Genregulation beeinflussen.

Das AlphaGenome-Modell nimmt DNA-Sequenzen mit einer Länge von bis zu einer Million Basenpaaren als Eingabe und prognostiziert Tausende von molekularen Eigenschaften im Zusammenhang mit seiner regulatorischen Aktivität. Gleichzeitig kann es auch die Auswirkungen von Genvariationen oder -mutationen bewerten, indem es die Vorhersageergebnisse von mutierten und unmutierten Sequenzen vergleicht. Das Modell baut auf DeepMinds früherem Genommodell Enformer auf und ergänzt das AlphaMissense-Modell, das sich auf die Klassifizierung von Variationen in proteinkodierenden Regionen konzentriert.

Jun Cheng, einer der Erstautoren der Studie, schrieb auf seinem persönlichen X-Konto: „Fehler beim RNA-Spleißen sind eine häufige Ursache für viele Krankheiten. Wir haben erstmals ein einheitliches Modell entwickelt, das gleichzeitig die RNA-seq-Abdeckung, Spleißstellen, die Nutzung dieser Stellen und die spezifischen Spleißverbindungen vorhersagen kann, um so ein umfassenderes Bild der Spleißergebnisse zu zeichnen.“ Gleichzeitig wies er auch darauf hin, dass einer der wichtigen Durchbrüche von AlphaGenome darin besteht, dass es „direkt aus der Sequenz Spleißverbindungen vorhersagen und diese zur Vorhersage von Variationseffekten nutzen kann“.

Dr. Caleb Lareau vom Memorial Sloan Kettering Cancer Center sagte: „Dies ist ein Meilenstein in der Branche. Wir haben erstmals ein Modell, das gleichzeitig einen langen Kontext, Einzelbasengenauigkeit und Spitzenleistung bietet und eine breite Palette von Genomaufgaben abdeckt.“ Derzeit hat DeepMind die Vorschauversion von AlphaGenome über die AlphaGenome-API für nichtkommerzielle Forschungsnutzer freigegeben und plant, das Modell in Zukunft offiziell zu veröffentlichen.

* Link zur Forschungsstudie:

https://go.hyper.ai/w9Jes

Basierend auf einer Million DNA-Sequenzen und Artinformationen mit U-Net-ähnlichem Design

Wie in Abbildung a unten gezeigt, nimmt das Deep-Learning-Modell AlphaGenome eine 1-Mb-(Millionenbasen-)DNA-Sequenz und Artinformationen (Mensch/Maus) als Eingabe zur Vorhersage von 5.930 menschlichen Genomspuren oder 1.128 Mausgenomspuren in verschiedenen Zelltypen auf, die 11 Ausgabetypen abdecken, darunter:

* Genexpression (RNA-seq, CAGE, PRO-cap)

* Detaillierte Spleißmuster (Spleißstellen, Spleißstellen-Nutzungsfrequenz, Spleißverbindungen) * Chromatinstatus (DNase, ATAC-seq, Histonmodifikationen, Transkriptionsfaktorbindung)

* Chromatin-Kontaktkarte

Überblick über das AlphaGenome-Modell

Beim Modellaufbau verwendet AlphaGenome ein U-Net-ähnliches Hauptarchitekturdesign, wie in Abbildung a unten gezeigt. Es kann die Eingabesequenz effizient in zwei Arten von Sequenzdarstellungen verarbeiten:

* Eindimensionale Einbettungen (1-dimensionale Einbettungen, Auflösung von 1 bp und 128 bp): Repräsentieren lineare Genomsequenzen zur Generierung von Vorhersagen für Genomspuren; * Zweidimensionale Einbettungen (2-dimensionale Einbettungen, Auflösung von 2048 bp): Repräsentieren räumliche Wechselwirkungen zwischen Genomfragmenten zur Vorhersage von paarweisen Kontaktkarten.

Gesamtüberblick über das AlphaGenome-Modell

Die Convolutional Layer des Modells werden verwendet, um lokale Sequenzmuster zu modellieren, um feinere Vorhersagen zu ermöglichen. Das Transformer-Modul wird verwendet, um längere Abhängigkeiten zu modellieren, wie z. B. die Wechselwirkungen zwischen Enhancern und Promotoren. Das Modell kann auf vollständigen 1-Mb-Sequenzen auf Einzelbasenebene trainiert werden, was dank der verteilten Sequenzparallelisierungstechnologie möglich ist, die auf acht verbundenen TPUv3-Geräten ausgeführt werden kann.

Beim Modelltraining verwendeten die Forscher ein zweistufiges Training, nämlich das Pre-Training und das Distillation. Im Pre-Training-Stadium trainierten sie zwei Arten von Modellen mit vorhandenen experimentellen Daten, wie in Abbildung b unten gezeigt:

* Fold-spezifische Modelle: Diese Modelle wurden mit Vier-Fold-Cross-Validation trainiert, d. h. 3/4 der Abschnitte im Referenzgenom wurden für das Training verwendet, und die verbleibenden 1/4 wurden für die Validierung und das Testen beiseite gelegt. Diese Modelle wurden verwendet, um die Generalisierungsfähigkeit von AlphaGenome bei der Vorhersage von Genomspuren in nicht gesehenen Abschnitten des Referenzgenoms zu bewerten.

* All-Folds-Modelle: Diese Modelle wurden auf allen verfügbaren Abschnitten des Referenzgenoms trainiert und dienten als Lehrer-Modelle im nächsten Distillation-Stadium, wie in Abbildung c unten gezeigt.

Trainingsprozess von AlphaGenome

Im Distillation-Stadium trainierten die Forscher ein Student-Modell mit einem geteilten Pre-Training-Architektur. Ziel war es, mithilfe von zufällig verstärkten Eingabesequenzen die kombinierten Ausgaben mehrerer All-Folds-Lehrer-Modelle vorherzusagen. Frühere Studien haben gezeigt, dass ein solches Distillation-Modell gleichzeitig eine stärkere Robustheit und eine höhere Genauigkeit bei der Vorhersage von Variationseffekten (VEP) in einem einzigen Modell realisieren kann.

Dank dieser Konstruktion kann das Student-Modell die Vorhersage von Variationseffekten für alle Modalitäten und Zelltypen mit einem einzigen Geräteaufruf durchführen. Auf einer NVIDIA H100 GPU dauert die Vorhersage für jede Variation weniger als eine Sekunde, was es in der Vorhersage von Variationseffekten im großen Maßstab im Vergleich zu herkömmlichen Multi-Modell-Ensemble-Methoden äußerst effizient macht.

AlphaGenome führt bei verschiedenen Genomvorhersageaufgaben an

Laut DeepMind hat AlphaGenome im Vergleich zu bestehenden Methoden die folgenden einzigartigen Vorteile:

Langer Sequenzkontext + Einzelbasenauflösung

AlphaGenome kann DNA-Sequenzen mit einer Länge von bis zu einer Million Basen analysieren und auf Einzelbasenebene Vorhersagen treffen. Dies ermöglicht es, entfernte regulatorische Genbereiche abzudecken und gleichzeitig feine biologische Details zu erfassen. Frühere Modelle mussten oft zwischen Sequenzlänge und Vorhersagegenauigkeit abwägen, was den Bereich der modellierbaren Modalitäten und die Genauigkeit einschränkte. Der technologische Durchbruch von AlphaGenome hebt diese Einschränkung auf. Seine Trainingszeit beträgt nur die Hälfte der Rechenressourcen des ursprünglichen Enformer-Modells und kann in nur vier Stunden abgeschlossen werden.

Umfassende Multimodal-Vorhersagefähigkeit

Die Kombination aus hoher Auflösung und langer Eingabesequenz ermöglicht es AlphaGenome, eine bisher nie dagewesene Vielfalt an regulatorischen Modalitäten vorherzusagen und Forschern so systematischere Informationen zur Genregulation bereitzustellen.

Effiziente Variationsbewertung

AlphaGenome kann die Auswirkungen von Variationen in einer Sekunde bewerten. Indem es die Vorhersagedifferenzen zwischen mutierten und unmutierten Sequenzen vergleicht und die geeignetste Zusammenfassungsmethode für verschiedene Modalitäten verwendet, kann es schnell und genau die potenziellen Auswirkungen von Genvariationen auf molekulare Mechanismen bewerten.

Neuartige Spleißstellenmodellierung

AlphaGenome kann innovativ die Position und die Expressionsstufe von RNA-Spleißverbindungen direkt aus der Sequenz vorhersagen. Viele seltene Erbkrankheiten (z. B. Spinale Muskelatrophie, bestimmte Typen von Mukoviszidose) sind mit Spleißfehlern verbunden. Diese Fähigkeit bietet ein neues Werkzeug für die Erforschung der Ursachen dieser Krankheiten.

Exzellente Leistung in Benchmark-Tests

AlphaGenome führt bei verschiedenen Genomvorhersageaufgaben an. Beispielsweise kann es nahe gelegene DNA-Strukturbereiche, die Auswirkungen von Variationen auf die Genexpression und die Änderungen in Spleißmustern vorhersagen. Es schlägt in 22 von 24 Bewertungen der DNA-Sequenzvorhersage die bestehenden besten Modelle und erreicht oder übertrifft in 24 von 26 Variationseffektaufgaben die derzeit besten Modelle. Wichtiger noch ist, dass es das einzige Modell ist, das alle bewerteten Modalitäten gemeinsam vorhersagen kann, was seine starke Allgemeingültigkeit zeigt.

Genauer gesagt untersuchten die Forscher zunächst die Generalisierungsfähigkeit von AlphaGenome in nicht gesehenen Genomabschnitten, was eine Voraussetzung für eine hochwertige Vorhersage von Variationseffekten ist, um die Modellleistung von AlphaGenome zu bewerten. Sie führten insgesamt 24 Bewertungen der Genomspurenvorhersage durch, die alle 11 Modalitäten abdeckten, die das Modell vorhersagt. Bei den Out-of-Fold-Evaluierungen verwendeten sie die pre-trainierten fold-spezifischen AlphaGenome-Modelle und verglichen ihre Vorhersageergebnisse mit den derzeit stärksten externen Modellen in jeder Aufgabe.

Die Ergebnisse zeigten, dass AlphaGenome in 22 von diesen 24 Bewertungen besser als die entsprechenden externen Modelle abschneidet, wie in Abbildung d unten gezeigt. Bemerkenswerterweise zeigte AlphaGenome in der Vorhersage von zelltypspezifischen Genexpressionsänderungen (log-fold change, LFC) im Vergleich zu einem anderen multimodalen Sequenzmodell, Borzoi, eine relative Leistungssteigerung von +17,4 %, wie in Abbildung e unten gezeigt.

Darüber hinaus übertraf AlphaGenome auch spezialisierte Modelle, die sich auf eine einzelne Modalität konzentrieren. Beispielsweise:

Bei der Vorhersage von Chromatin-Kontaktkarten übertraf AlphaGenome das Orca-Modell, was sich in einer Steigerung des Pearson-Korrelationskoeffizienten der Kontaktkarte um +6,3 % und einer Steigerung der zelltypspezifischen Unterschiede um +42,3 % ausdrückte, wie in Abbildung d unten gezeigt;

Bei der Vorhersage von Transkriptionsstartpunktspuren war AlphaGenome besser als ProCapNet, mit einer Steigerung des Gesamtzählungs-Pearson-Korrelationskoeffizienten um +15 %;

Bei der Vorhersage der Chromatinzugänglichkeit war AlphaGenome besser als ChromBPNet, mit einer Steigerung von +8 % bei ATAC-seq und +19 % bei DNase-seq.

* Linke Abbildung d: Relative Leistungssteigerung von AlphaGenome bei verschiedenen Genomspurenvorhersageaufgaben in verschiedenen Modalitäten und Auflösungen (in %), PA steht für Polyadenylierung. * Rechte Abbildung e: Relative Leistungssteigerung von AlphaGenome bei einigen Variationseffektvorhersageaufgaben.

AlphaGenome erhält hohe Bewertungen als Branchenmeilenstein

Seit der Veröffentlichung des AlphaGenome-Modells hat es auf Twitter ständig für Diskussionen gesorgt.

Pushmeet Kohli, Vizepräsident für Forschung bei DeepMind, sagte: „AlphaGenome bietet eine umfassende Sicht auf das menschliche nichtkodierende Genom, indem es die Auswirkungen von DNA-Variationen vorhersagt. Es wird unser Verständnis der Krankheitsbiologie vertiefen und neue Forschungswege eröffnen.“ In den Kommentaren waren die Leute nicht nur beeindruckt, sondern interessierten sich auch besonders für die Verwendungsmöglichkeiten.

Ein Doktorand in Genetik von der Universität Edinburgh sagte: „Dieses Modell könnte möglicherweise die Art und Weise, wie wir krankheitsverursachende Mutationen und Arzneimittelziele entdecken, grundlegend neu definieren. Es ist von großer Bedeutung.“

Ein Kommentator aus dem Bereich der Biowissenschaften sagte: „AlphaGenome betrachtet nicht nur einzelne Gene