Das Massachusetts Institute of Technology (MIT) hat das erste end - zu - end Dynamik - Protein - Generierungsmodell VibeGen vorgestellt, das eine bidirektionale Abbildung zwischen Sequenz und Vibration ermöglicht.
Das Protein-Generierungs-Agentenmodell VibeGen, das von einem Forschungsteam der MIT und der Carnegie Mellon University vorgeschlagen wurde, hat die de-novo-Protein-Design realisiert, indem es die Sequenzgenerierung mit der Vorhersage der Schwingungsdynamik kombiniert. Die Forschungsergebnisse zeigen, dass die von diesem generativen Agenten entworfenen Proteine nicht nur zu stabilen und neuartigen Strukturen falten können, sondern auch die Verteilungscharakteristiken der Zielschwingungsamplituden auf der Peptidrückgrat-Ebene wiederholen können.
Proteine sind die zentralen funktionellen Moleküle im Lebenssystem. Ihre Funktion wird jedoch nicht allein durch die statische Struktur bestimmt, sondern stammt aus der ständig wechselnden Konformationsdynamik. Im Rahmen der komplexen Energielandschaft halten Proteine unter physiologischen Bedingungen ein dynamisches Gleichgewicht in der Bewegung auf der Skala von Femtosekunden bis Millisekunden auf, was sie zu echten molekularen Maschinen macht.
Deshalb ist die Anomalie der Proteindynamik eng mit vielen Krankheiten verbunden. Beispielsweise funktioniert das Tumorsuppressorprotein p53 abhängig von seiner Konformationsplastizität, und kanzerogene Mutationen schwächen diese Fähigkeit. Die Mutationen des CFTR führen hingegen durch die Störung der Gating-Dynamik zur zystischen Fibrose. Diese Tatsachen zeigen, dass die „Bewegung“ der Proteine selbst ein wichtiger Determinante ihrer Funktion ist. Daher wird das Verständnis und Design von Proteinen aus der Perspektive der Dynamik zur führenden Richtung in der Strukturbiologie und Bioingenieurwissenschaft.
In den letzten Jahrzehnten haben die Forscher experimentelle Methoden wie Kernspinresonanz, Wasserstoff-Deuterium-Austausch-Massenspektrometrie und Kryo-Elektronenmikroskopie sowie Rechenmethoden wie Molekulardynamiksimulation und Analyse der normalen Schwingungsmoden entwickelt, um die Proteindynamik zu beschreiben. Diese Methoden sind jedoch entweder mit komplexen Prozessen verbunden und schwer zu skalieren, oder sie haben hohe Rechenkosten und begrenzte Zeitskalen, was es schwierig macht, umfangreiche Studien zu unterstützen.
In den letzten Jahren haben Deep Learning und generatives KI neue Möglichkeiten für die Proteinforschung gebracht. Modelle wie AlphaFold2 haben bereits eine hochpräzise Strukturvorhersage erreicht, und es gibt auch Methoden, die die Sekundärstruktur, Bindungsstellen und sogar Schwingungseigenschaften vorhersagen können. Dennoch bleiben die meisten bestehenden Methoden auf der Ebene der „Struktur oder einzelner Eigenschaften“ und fehlt eine systematische Modellierung der intrinsischen Dynamik. Im Designbereich betrachten Frameworks wie RFdiffusion und AlphaFold3 die Struktur immer noch als annähernd starres Objekt und haben noch keine wirklichen dynamischen Einschränkungen eingeführt. Daher bleibt die Frage, wie man eine einheitliche Abbildung von „Sequenz - Struktur - Dynamik - Funktion“ herstellt und ein kontrolliertes Design auf der Grundlage der Dynamik realisiert, immer noch ein Kernproblem.
Kürzlich hat ein gemeinsames Forschungsteam der MIT und der Carnegie Mellon University den Protein-Generierungs-Agenten VibeGen vorgeschlagen, der die de-novo-Protein-Design realisiert, indem er die Sequenzgenerierung mit der Vorhersage der Schwingungsdynamik kombiniert. Die Forschungsergebnisse zeigen, dass die von diesem generativen Agenten entworfenen Proteine nicht nur zu stabilen und neuartigen Strukturen falten können, sondern auch die Verteilungscharakteristiken der Zielschwingungsamplituden auf der Peptidrückgrat-Ebene wiederholen können.
Die zugehörigen Forschungsergebnisse wurden unter dem Titel „VibeGen: Agentic end-to-end de novo protein design for tailored dynamics using a language diffusion model“ in Matter veröffentlicht.
Link zur Publikation: https://www.cell.com/matter/abstract/S2590-2385(26)00069-X
Protein-Dynamik-Datenbank basierend auf niederfrequenten normalen Schwingungsmoden
Um die Datenbank aufzubauen, haben die Forscher aus der im Januar 2024 aktualisierten Protein Data Bank (PDB) Protein-Einzelfäden ausgewählt, deren Länge nicht mehr als 126 Aminosäuren beträgt. Sie haben die Strukturen mit Tools wie VMD, MMTSB und SCWRL4 gereinigt und vervollständigt, anschließend die Energie auf der Grundlage des CHARMM-Kraftfelds minimiert und die Modeninformationen mit der Methode der Block-normalen Schwingungsmoden berechnet. Nach dem Entfernen der ersten 6 starren Moden, die die Gesamttranslations- und Rotationsbewegung repräsentieren, wurden die niederfrequentesten nicht-trivialen Moden für die nachfolgende Analyse ausgewählt.
Auf dieser Grundlage hat diese Studie weiterhin die Verschiebungsmodellängen der Cα-Atome der einzelnen Reste des Peptidrückgrats extrahiert und einen Vektor der Form der normalen Schwingungsmoden aufgebaut. Die Ergebnisse zeigen, dass die Schwingungsverschiebungen eine deutlich heterogene Verteilung aufweisen: Die Amplituden an den Kettenenden und in den strukturell lockeren Bereichen sind größer, während die Schwingungen in den dichten Bereichen wie α-Helices und β-Faltblättern eingeschränkt sind. Die Ecken und die gekrümmten Bereiche zeigen aufgrund ihrer höheren Flexibilität lokale Spitzen. Um den Einfluss der Längenunterschiede zu eliminieren, hat die Studie den Vektor normalisiert, so dass er zu einem dynamischen Deskriptor wird, der unabhängig vom Koordinatensystem ist.
Schließlich haben die Forscher einen Datensatz mit 12.924 Protein-Einzelfäden aufgebaut. Die Analyse zeigt, dass die niederfrequenten Schwingungsmuster eine bemerkenswerte Vielfalt aufweisen, und die Amplitudenspitzen konzentrieren sich hauptsächlich an den Kettenenden. Dieser Datensatz wurde im Verhältnis 9:1 in einen Trainingssatz und einen Testsatz aufgeteilt, um die nachfolgende Training und Bewertung des Generierungsmodells durchzuführen.
Normale Modenanalyse von Proteinen und Aufbereitung des Datensatzes der Formen der niederfrequenten Moden
VibeGen: End-to-End de-novo-Protein-Design basierend auf einem Sprach-Diffusionsmodell
Die zentrale Herausforderung dieser Studie besteht darin, dass die Form der normalen Schwingungsmoden von der komplexen dreidimensionalen Struktur und den elastischen Eigenschaften des Proteins gemeinsam bestimmt wird, und es keine direkte Abbildung zwischen der Sequenz und der Dynamik gibt. Gleichzeitig besteht eine hohe Degeneration in der Information eines einzelnen Modus, und verschiedene Sequenzen können ähnliche dynamische Eigenschaften haben, was das inverse Designproblem besonders schwierig macht.
Um diese Herausforderungen zu bewältigen, hat diese Studie zunächst durch die Analyse der normalen Schwingungsmoden und die Simulation der Molekulardynamik aller Atome die wichtigen dynamischen Eigenschaften einer großen Anzahl von Proteinen aus der Protein Data Bank (PDB) extrahiert. Auf dieser Grundlage haben die Forscher zwei kooperierende Protein-Sprach-Diffusionsmodelle aufgebaut: das Protein-Design-Modul (PD) und das Vorhersage-Modul (PP), die jeweils für die Vorwärtsvorhersage und das inverse Design zwischen dem Sequenz- und dem Raum der normalen Schwingungsmoden verantwortlich sind. Beide Module haben ähnliche Strukturen und basieren auf einer Kombination aus einem vortrainierten Protein-Sprachmodell (pLM) und einem Diffusionsmodell.
Die Aufgabe des Design-Moduls ist es, eine Sequenz basierend auf den Ziel-Dynamikeigenschaften zu generieren. Beim Entrauschenprozess integriert das Diffusionsmodell die Informationen der dynamischen Bedingungen über mehrere Kanäle und generiert schrittweise eine Sequenz, die den Ziel-Eigenschaften entspricht, im latenten Raum. Das Vorhersage-Modul hat eine symmetrische Struktur und leitet die Form der normalen Schwingungsmoden rückwärts aus der eingegebenen Sequenz ab. Es nutzt verschiedene Sequenzrepräsentationen, die vom vortrainierten Sprachmodell ausgegeben werden, um das Vorhersageergebnis zu optimieren.
Die beiden Module werden unabhängig voneinander trainiert und bilden in der Bereitstellungsphase ein geschlossenes kooperatives System von „Generierung - Bewertung - Auswahl“: Das Design-Modul generiert zunächst Kandidatensequenzen, und das Vorhersage-Modul bewertet deren dynamisches Verhalten in Echtzeit. Die Forscher können die Ergebnisse gemäß den Anforderungen an die Genauigkeit oder Vielfalt auswählen und bei Bedarf die Iteration wiederholen, bis sie eine zufriedenstellende Sequenz erhalten.
Arbeitsablauf der Entwicklung eines end-to-end-Protein-Generierungsmodells auf der Grundlage von dynamischen Eigenschaften
Die Leistung des Modells wurde auf dem Testsatz validiert. Für verschiedene typische Designziele der Formen der normalen Schwingungsmoden wie L-Form, U-Form und W-Form wurde die Schwingungsform der von dem Modell generierten Proteine durch die tatsächliche Analyse der normalen Schwingungsmoden bestätigt, und sie stimmt mit den Designzielen hochgradig überein. Quantitative Indikatoren wie der Pearson-Korrelationskoeffizient und der relative L2-Fehler zeigen, dass diese Methode ein hochpräzises Design unter komplexen dynamischen Einschränkungen realisieren kann.
Von der strukturellen Perspektive zeigt sich, dass die generierten Proteine eine klare dynamische Korrespondenz aufweisen: Die Bereiche mit stärkeren Schwingungen sind meist ungeordnete Knäuel oder flexible Segmente, während die Bereiche mit eingeschränkten Schwingungen eher stabile Strukturen wie α-Helices oder β-Faltblätter bilden. Dies zeigt, dass das Modell die innere Beziehung zwischen der Struktur und der Dynamik effektiv erfasst hat.
Bei der Implementierung des Modells werden für das Design-Modul und das Vorhersage-Modul beide ein mittelgroßes vortrainiertes Modell mit 150 Millionen Parametern aus der ESM-2-Serie als pLM verwendet, um die Rechenleistung und die Modellleistung zu balancieren. Das Diffusionsmodell integriert die Bedingungsinformationen in den Entrauschenprozess über mehrere Kanäle des U-Netzwerks und wird unabhängig mit dem Adam-Optimierer trainiert.
Doppelte Durchbrüche in Genauigkeit und Neuartigkeit
Um die Leistung des Modells zu bewerten, hat die Studie experimentelle Analysen aus mehreren Dimensionen durchgeführt. Die Vielfaltanalyse zeigt, dass das Modell für dasselbe dynamische Ziel mehrere Designlösungen mit unterschiedlichen Strukturen, aber gleicher Funktion generieren kann. Am Beispiel der U-förmigen und L-förmigen normalen Schwingungsmoden haben die entworfenen Proteine alle die Anordnung von „dichter Kern + offene Enden“: Die Enden sind ungeordnete Knäuelstrukturen, die den Bereichen mit hoher Amplitude entsprechen; der Kern kann durch verschiedene Strukturen wie α-Helixbündel oder Helix-Faltblatt-Mischstrukturen realisiert werden, die den Bereichen mit niedriger Amplitude entsprechen. Diese Vielfalt stammt hauptsächlich von der Freiheit bei der Strukturauswahl in den Bereichen mit niedrigen Schwingungen, und das Modell hat diese „Mehrlösigkeit“ erfolgreich erfasst und genutzt.
Mehrere Proteinsequenzen, die auf der Grundlage von U-förmigen und L-förmigen Bedingungen generiert wurden
Die Wirksamkeit des Vorhersage-Moduls wurde durch Vergleichsexperimente validiert. Wie in der folgenden Abbildung gezeigt, wurden aus derselben Gruppe von Kandidatensequenzen zwei Gruppen ausgewählt: die Gruppe mit der besten Vorhersage und die Gruppe mit der schlechtesten Vorhersage. Die tatsächliche Designgenauigkeit der ersten Gruppe ist deutlich höher als die der zweiten Gruppe (Median des Pearson-Korrelationskoeffizienten 0,53 vs. 0,31), während die Vorhersagegenauigkeit des Vorhersage-Moduls für beide Gruppen stabil bleibt. Dies zeigt, dass die Einführung des Vorhersage-Moduls in den Designprozess die Qualität der Sequenzen effektiv auswählen kann und die Abhängigkeit von teuren physikalischen Validierungen verringern kann.
Vergleich der besten und der schlechtesten Designgruppen, die von dem Protein-Vorhersage-Modul bestimmt wurden
Die statistische Gesamtleistung basiert auf 1.293 Testfällen. Wie in der folgenden Abbildung gezeigt, beträgt der Median des Korrelationskoeffizienten zwischen der gemessenen Form der normalen Schwingungsmoden und dem Designziel 0,53, und der Median des relativen L2-Fehlers beträgt 0,57, was die inhärente Schwierigkeit des hochpräzisen Designs auf der Restebene widerspiegelt. Nach der Tiefpassfilterung, um die Gesamtform zu behalten, steigt der Median des Korrelationskoeffizienten auf 0,72, und der Median des Fehlers sinkt auf 0,37. Dies zeigt, dass das Modell besonders gut in der Lage ist, das Gesamtprofil der Schwingungen zu erfassen - diese Eigenschaft ist von der größten biologischen Bedeutung für die großangelegte Konformationsdynamik von Proteinen.
In Bezug auf die Neuartigkeit zeigt die höchste Sequenzidentität in der BLAST-Analyse eine bimodale Verteilung, und der Hauptpeak entspricht den de-novo-entworbenen Sequenzen. Dies zeigt, dass das Modell eher dazu neigt, neue Sequenzen zu generieren und die Bibliothek der potenziellen Proteinstrukturen und dynamischen Lösungen effektiv erweitert.