StartseiteArtikel

Eine künstliche Intelligenz-"Mikroskop" zur Beobachtung des menschlichen DNA: Google AlphaGenome ist erschienen.

智东西2025-06-26 10:09
Millionen von DNA-Sequenzen werden eingegeben, um Tausende von molekularen Eigenschaften vorherzusagen.

Nach Berichten von Zhidongxi vom 25. Juni. Heute hat Google DeepMind AlphaGenome vorgestellt, ein KI-Modell, das Menschen dabei hilft, die Auswirkungen von Genänderungen schnell vorherzusagen.

AlphaGenome ist wie ein „KI-Mikroskop zur Beobachtung der menschlichen DNA“. Es nimmt lange DNA-Sequenzen mit bis zu 1 Million Basenpaaren als Eingabe und prognostiziert tausende molekulare Eigenschaften, die seine regulatorische Aktivität kennzeichnen. Es hat in über 20 breiten genomischen Vorhersagebenchmarks den neuesten Stand der Technik erreicht.

Im Vergleich zu bestehenden DNA-Sequenzmodellen hat AlphaGenome mehrere einzigartige Merkmale: Unterstützung von hochauflösenden langen Sequenzkontexten, umfassenden multimodalen Vorhersagen, effizienten Variationsbewertungen und einem neuartigen Spleißverbindungsmodell.

Derzeit bietet Google über die AlphaGenome-API eine Vorschauversion von AlphaGenome für nichtkommerzielle Forschungsarbeiten an und plant, das Modell in Zukunft freizugeben.

Dr. Caleb Lareau vom Memorial Sloan Kettering Cancer Center sagte: „Dies ist ein Meilenstein in diesem Bereich. Wir haben erstmals ein einzelnes Modell, das fernab liegende Kontexte, Grundgenauigkeit und Spitzenleistung bei verschiedenen genomischen Aufgaben vereinigen kann.“

Link zur Studie: https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf

01. Eingabe von Millionen von DNA-Sequenzen, Vorhersage von tausenden molekularen Eigenschaften

Das AlphaGenome-Modell nimmt lange DNA-Sequenzen mit bis zu 1 Million Basenpaaren als Eingabe und prognostiziert tausende molekulare Eigenschaften, die seine regulatorische Aktivität kennzeichnen. Es kann auch die Auswirkungen von genetischen Variationen oder Mutationen bewerten, indem es die Vorhersageergebnisse von mutierten Sequenzen mit denen von unmutierten Sequenzen vergleicht.

Zu den vorhergesagten Eigenschaften gehören die Start- und Endpositionen von Genen in verschiedenen Zelltypen und Geweben, die Positionen der Gen-Spleißen, die Menge der produzierten RNA sowie die Zugänglichkeit, Nähe oder Bindung von bestimmten DNA-Basen an bestimmte Proteine. Die Trainingsdaten stammen aus großen öffentlichen Konsortien, darunter ENCODE, GTEx, 4D Nucleome und FANTOM5. Diese Konsortien haben diese Eigenschaften experimentell gemessen und umfassen wichtige Muster der Genregulation in Hunderten von menschlichen und Maus-Zelltypen und -Geweben.

Die folgende Animation zeigt, dass AlphaGenome eine Million DNA-Buchstaben als Eingabe nimmt und verschiedene molekulare Eigenschaften in verschiedenen Geweben und Zelltypen vorhersagt.

Die AlphaGenome-Architektur verwendet Convolutional-Layer, um zunächst kurze Muster in genomischen Sequenzen zu erkennen, Transformer, um Informationen an allen Positionen der Sequenz zu übertragen, und schließlich eine Reihe von Layern, um die erkannten Muster in verschiedene Vorhersagemodalitäten umzuwandeln. Während des Trainings wird diese Berechnung auf mehreren miteinander verbundenen Tensor Processing Units (TPU) für eine einzelne Sequenz verteilt.

Dieses Modell baut auf Google's früherem Genomik-Modell Enformer auf und ergänzt AlphaMissense, das speziell für die Klassifizierung der Auswirkungen von Variationen in proteinkodierenden Bereichen entwickelt wurde. Diese Bereiche decken 2 % des Genoms ab. Die restlichen 98 % des Genoms werden als nichtkodierende Bereiche bezeichnet, die für die Regulation der Genaktivität von entscheidender Bedeutung sind und viele krankheitsassoziierte Variationen enthalten. AlphaGenome bietet eine neue Perspektive für die Interpretation dieser umfangreichen Sequenzen und der darin enthaltenen Variationen.

02. Hochauflösender langer Sequenzkontext, umfassende multimodale Vorhersagen

Im Vergleich zu bestehenden DNA-Sequenzmodellen hat AlphaGenome mehrere einzigartige Merkmale:

1. Hochauflösender langer Sequenzkontext

Googles Modell analysiert bis zu eine Million DNA-Basen und macht Vorhersagen mit einer Auflösung von einer einzelnen Base. Ein langer Sequenzkontext ist für die Abdeckung von fernab liegenden Genregulationsbereichen von entscheidender Bedeutung, während die Basenauflösung für die Erfassung feiner biologischer Details unerlässlich ist.

Frühere Modelle mussten einen Kompromiss zwischen Sequenzlänge und Auflösung eingehen, was den Bereich der Modalitäten, die sie gemeinsam modellieren und genau vorhersagen konnten, einschränkte. Googles technischer Fortschritt hat diese Einschränkung beseitigt, ohne die Trainingsressourcen wesentlich zu erhöhen. Das Training eines einzelnen AlphaGenome-Modells (ohne Daten-Distillation) dauert 4 Stunden und erfordert nur die Hälfte des Rechenbudgets, das für das Training des ursprünglichen Enformer-Modells benötigt wird.

2. Umfassende multimodale Vorhersagen

Durch die Freigabe von hochauflösenden Vorhersagen für lange Eingabesequenzen kann AlphaGenome die vielfältigsten Modalitäten vorhersagen. Dadurch bietet AlphaGenome Wissenschaftlern umfassendere Informationen über die komplexen Schritte der Genregulation.

3. Effiziente Variationsbewertung

Außer der Vorhersage verschiedener molekularer Eigenschaften kann AlphaGenome auch die Auswirkungen von Genvariationen auf all diese Eigenschaften effizient in einer Sekunde bewerten. Dies geschieht durch den Vergleich der Vorhersageergebnisse von mutierten und unmutierten Sequenzen und die effiziente Zusammenfassung dieses Vergleichs mit verschiedenen Methoden für verschiedene Modalitäten.

4. Neuartiges Spleißverbindungsmodell

Viele seltene genetische Krankheiten, wie z. B. Spinale Muskelatrophie und bestimmte Formen der Mukoviszidose, können durch Fehlfunktionen beim RNA-Spleißen verursacht werden. RNA-Spleißen ist der Prozess, bei dem Teile von RNA-Molekülen entfernt oder „ausgespleißt“ werden und die verbleibenden Enden wieder miteinander verbunden werden. AlphaGenome kann erstmals direkt aus der Sequenz die Positionen und Expressionslevel dieser Verbindungen modellieren und so ein tieferes Verständnis der Auswirkungen von genetischen Variationen auf das RNA-Spleißen ermöglichen.

03. Beste Leistung in über 20 Benchmark-Tests

AlphaGenome hat in breiten genomischen Vorhersagebenchmarks den neuesten Stand der Technik erreicht, z. B. bei der Vorhersage, welche Teile von DNA-Molekülen sich nahe beieinander befinden, ob genetische Variationen die Genexpression erhöhen oder verringern oder ob sie das Spleißmuster von Genen verändern.

Das folgende Balkendiagramm zeigt die relative Verbesserung von AlphaGenome bei ausgewählten DNA-Sequenzen und Variationseffektaufgaben im Vergleich zu den Ergebnissen der derzeit besten Methoden in jeder Kategorie.

Bei der Vorhersage von einzelnen DNA-Sequenzen hat AlphaGenome in 22 von 24 Bewertungen eine bessere Leistung als die besten auf dem Markt erhältlichen Modelle gezeigt. Bei der Vorhersage der regulatorischen Auswirkungen von Variationen hat es in 24 von 26 Bewertungen eine Leistung erzielt, die mit der des besten externen Modells vergleichbar oder besser war.

Dieser Vergleich umfasst auf bestimmte Aufgaben zugeschnittene Modelle. AlphaGenome ist das einzige Modell, das alle bewerteten Modalitäten gemeinsam vorhersagen kann, was seine Universalität unterstreicht.

04. Einheitliches Modell, schnellere Generierung und Prüfung von Hypothesen

Die Universalität von AlphaGenome ermöglicht es Wissenschaftlern, die Auswirkungen einer Variation auf mehrere Modalitäten gleichzeitig durch einen einzigen API-Aufruf zu untersuchen. Das bedeutet, dass Wissenschaftler Hypothesen schneller generieren und testen können, ohne mehrere Modelle für die Untersuchung verschiedener Modalitäten verwenden zu müssen.

Darüber hinaus zeigt die hervorragende Leistung von AlphaGenome, dass es in Bezug auf die Genregulation ein relativ universelles DNA-Sequenzrepräsentation gelernt hat. Dies legt eine solide Grundlage für die breitere Forschungsgemeinschaft. Sobald das Modell vollständig freigegeben ist, können Wissenschaftler es auf ihren eigenen Datensätzen anpassen und feinabstimmen, um ihre spezifischen Forschungsfragen besser zu lösen.

Schließlich bietet dieser Ansatz eine flexible und erweiterbare Architektur für die Zukunft. Durch die Erweiterung der Trainingsdaten kann die Funktionalität von AlphaGenome erweitert werden, um eine bessere Leistung zu erzielen, mehr Arten abzudecken oder mehr Modalitäten einzubeziehen, wodurch das Modell umfassender wird.

05. Unterstützung bei Krankheitsverständnis, Grundlagenforschung usw.

Die Vorhersagefähigkeit von AlphaGenome kann verschiedene Forschungsansätze unterstützen:

1. Krankheitsverständnis: Durch genauere Vorhersagen von Genmutationen kann AlphaGenome Forschern helfen, die potenziellen Ursachen von Krankheiten genauer zu ermitteln und die funktionellen Auswirkungen von Variationen, die mit bestimmten Merkmalen assoziiert sind, besser zu erklären, was möglicherweise neue Therapieziele aufdeckt. Wir glauben, dass das Modell besonders gut geeignet ist, um seltene Variationen zu untersuchen, die möglicherweise große Auswirkungen haben, wie z. B. diejenigen, die seltene Mendelsche Erbkrankheiten verursachen.

2. Synthetische Biologie: Seine Vorhersagen können zur Gestaltung von synthetischer DNA mit bestimmten regulatorischen Funktionen eingesetzt werden, z. B. zur Aktivierung von Genen nur in Nervenzellen, nicht aber in Muskelzellen.

3. Grundlagenforschung: Es kann die Erforschung des Genoms beschleunigen, indem es hilft, die wichtigsten funktionellen Elemente des Genoms zu kartieren und ihre Rolle zu definieren, und die wichtigsten DNA-Befehle zur Regulation der Funktion bestimmter Zelltypen zu identifizieren.

Beispielsweise hat Google AlphaGenome eingesetzt, um die potenziellen Mechanismen einer krebsassoziierten Mutation zu untersuchen. In einer bestehenden Studie an Patienten mit T-Zell-Akutem Lymphoblastischem Leukämie (T-ALL) haben Forscher Mutationen an bestimmten Positionen im Genom beobachtet. Mit AlphaGenome haben sie vorhergesagt, dass diese Mutationen durch die Einführung von MYB-DNA-Bindungssequenzen das nahe gelegene TAL1-Gen aktivieren würden. Dies bestätigt bekannte Krankheitsmechanismen und zeigt die Fähigkeit von AlphaGenome, bestimmte nichtkodierende Variationen mit Krankheitsgenen in Verbindung zu bringen.

Prof. Marc Mansour von der University College London sagte: „AlphaGenome wird ein leistungsstarkes Werkzeug in diesem Bereich werden. Die Bestimmung der Korrelationen zwischen verschiedenen nichtkodierenden Variationen kann äußerst herausfordernd sein, insbesondere bei großen Studien. Dieses Werkzeug wird uns wichtige Hinweise geben, um Krankheiten wie Krebs besser zu verstehen.“

06. Fazit: Ein wichtiger Schritt in der KI-Genvorhersage

AlphaGenome markiert einen wichtigen Schritt in der KI-Genvorhersage, hat aber dennoch seine Grenzen.

Wie andere sequenzbasierte Modelle ist es immer noch eine ungelöste Herausforderung, die Auswirkungen von sehr weit entfernten regulatorischen Elementen (z. B. solche, die mehr als 100.000 DNA-Basen voneinander entfernt sind) genau zu erfassen.

Außerdem hat Google AlphaGenome nicht für die Vorhersage von individuellen Genomen entworfen oder validiert. Obwohl AlphaGenome molekulare Ergebnisse vorhersagen kann, zeigt es nicht vollständig, wie genetische Variationen zu komplexen Merkmalen oder Krankheiten führen.

Dieser Artikel stammt aus dem WeChat-Account „Zhidongxi“ (ID: zhidxcom). Autor: Li Shuiqing, Redakteur: Xinyuan. Veröffentlicht von 36Kr mit Genehmigung.