StartseiteArtikel

Das Team von MIT hat BoltzGen Open-Source gemacht. Es kann Proteinbindungen über verschiedene Molekültypen hinweg gestalten, und 66 % der Ziele erreichen eine Affinität im Nanomolbereich.

超神经HyperAI2025-10-27 15:30
In einem einzigen ganzatomaren Generativmodell wurden die Strukturvorhersage und die Liganden-Design vereinheitlicht.

Angesichts der Einschränkungen der traditionellen Proteindesignmethoden, die auf physikalischen Berechnungen beruhen, hohe Rechenkosten verursachen, den Entwurfsparameterraum einschränken und es schwierig machen, multimodale Ziele gleichzeitig zu verarbeiten, hat das Massachusetts Institute of Technology (MIT) in Zusammenarbeit mit mehreren Institutionen BoltzGen entwickelt. Dieses Modell ersetzt die traditionellen diskreten Restlabels durch eine kontinuierliche geometrische Darstellung, ermöglicht die gemeinsame Optimierung von Proteinfaltung und -bindung und implementiert eine flexible Entwurfssprache, um die kontrollierte Generierung von Molekülen unterschiedlicher Typen zu ermöglichen. Dadurch werden die Effizienz, Allgemeingültigkeit und Interpretierbarkeit des Modells verbessert.

Im Bereich der Arzneimittelentwicklung und der Biomolekularen Ingenieurwissenschaft ist das "De-novo Proteindesign (De-novo Binder Design)" eine der zentralen Methoden für die Automatisierung der Arzneimittelentwicklung. Forscher können mit Hilfe von Computersimulationen und Deep Learning Peptidketten oder Proteinstrukturen mit Bindungsfähigkeit an bestimmten Zielstellen generieren, was die Entwicklung neuer Arzneiformen wie Antikörper, Nanobody, zyklische Peptide und andere ermöglicht.

Allerdings basieren traditionelle Proteindesignstrategien häufig auf physikalischen Berechnungen wie Molekulardynamiksimulationen und Sequenzoptimierungsalgorithmen. Obwohl diese Methoden in einzelnen Systemen eine hohe Genauigkeit erreichen können, sind die Rechenkosten hoch, der Entwurfsparameterraum eingeschränkt und es ist schwierig, multimodale Ziele wie Proteine, kleine Moleküle und RNA gleichzeitig zu verarbeiten. Die derzeitigen Deep Generative Models haben zwar die Generierungsgeschwindigkeit bis zu einem gewissen Grad erhöht, aber in der Regel fehlt ihnen die Fähigkeit zur "atomaren" Strukturvorhersage. Sie sind auf bestimmte Molekültypen optimiert und haben daher eine begrenzte Allgemeingültigkeit. Darüber hinaus hängt die Bewertung dieser Modelle oft von ähnlichen Komplexen in den Trainingsdaten ab, was es schwierig macht, ihre Generalisierungsfähigkeit für "unbekannte Zielstellen" zu validieren. Es fehlt an einem kontrollierten Generierungsmechanismus und einer flexiblen Strukturrestriktion, was die Effizienz und Interpretierbarkeit der Entwürfe einschränkt.

Um diese Probleme zu lösen, hat das MIT in Zusammenarbeit mit Boltz und anderen Institutionen das "All-atom Generative Model" BoltzGen vorgeschlagen, das die Strukturvorhersage und den Binderdesign vereinigt. Dieses Modell ersetzt die traditionellen diskreten Restlabels durch eine kontinuierliche geometrische Darstellung, ermöglicht die gemeinsame Optimierung von Proteinfaltung und -bindung in einem einzigen System und implementiert eine flexible "Entwurfssprache", um die kontrollierte Generierung von Molekülen unterschiedlicher Typen zu ermöglichen.

Die Experimente zeigen, dass 66 % der von BoltzGen entworfenen Nanobody und Proteinbinder eine nanomolare Affinität aufweisen, was erstmals beweist, dass ein "einheitliches Modellsystem" die Faltung und Bindungseigenschaften in der multimodalen Biomolekülentwicklung gleichzeitig optimieren kann.

Derzeit wurde das zugehörige Forschungsergebnis unter dem Titel "BoltzGen: Toward Universal Binder Design" veröffentlicht. 

GitHub-Adresse: https://github.com/HannesStark/boltzgen

Highlights der Forschung:

* Vereinigung von Strukturvorhersage und Binderdesign in einem einzigen All-atom Generative Model, um die Proteinfaltung, die Modellierung der Bindungsstellen und die Sequenzgenerierung auf atomarer Ebene gleichzeitig durchzuführen, was die physikalische Plausibilität und Kontrollierbarkeit der Molekülentwicklung erheblich verbessert; 

* Einführung einer universellen "Entwurfssprache", die es dem Modell ermöglicht, flexibel zwischen verschiedenen Systemen wie Proteinen, Nanobody, zyklischen Peptiden und kleinen Molekülen zu wechseln, um die strukturgenerierung und -restriktion über verschiedene Modalitäten hinweg zu ermöglichen und den Anwendungsbereich des generativen KI in der Biomolekularen Ingenieurwissenschaft zu erweitern. 

Link zur Publikation: https://go.hyper.ai/3sx2K

Hybriddatensatz: Multimodale Trainingsstrategie

Das Forschungsteam hat bei der Optimierung von BoltzGen ein mehrstufiges, multimodales Trainingsframework eingesetzt, das auf drei Hauptdatensätzen basiert:

* Hochwertige experimentell aufgelöste Strukturen aus der Protein Data Bank (PDB), die verschiedene Komplexstrukturen wie RNA, DNA und Protein - kleine Molekül - Komplexe abdecken und dem Modell reale Bindungseinschränkungen und dreidimensionale geometrische Verteilungen liefern; 

* Experimentelle Daten aus der AlphaFold Database (AFDB), die von AlphaFold2 vorhergesagt und neu gelernt wurden, die zuverlässige Faltungsregeln von Proteinen in Experimenten umfassen; 

* Komplexstrukturbeispiele, die von dem Boltz - 1 - Modell generiert wurden, die multimodale Szenarien wie die Bindung kleiner Moleküle und die Wechselwirkung zwischen RNA und DNA abdecken und die Generalisierungsfähigkeit des Modells zwischen verschiedenen Biomolekültypen verbessern können. 

Um zu verhindern, dass das Modell zu stark auf bestimmte Strukturtypen ausgerichtet ist, hat das Forschungsteam die upsampled Datenbank von Antikörpern und TCRs entfernt, um die Vielfalt des Generierungsraums aufrechtzuerhalten. Gleichzeitig wurden alle Strukturbeispiele während des Trainings zufällig zugeschnitten und multitask - verarbeitet, damit das Modell bei jeder Trainingsiteration zufällig Aufgaben wie Faltungsprädiktion, Binderdesign und Strukturkomplettierung übernimmt, um ein einheitliches Multifunktionslernframework zu realisieren, sodass das Modell bei der atomaren Generierung auch eine multimodale Verständnisfähigkeit erhält.

Modellarchitektur: All - atomare Inferenz von Rauschen zu Struktur

Dieses Modell behält die Hauptkomponenten der AlphaFold3 - und Boltz - 2 - Architekturen bei und verbessert sie teilweise, um mehr bedingte Eingaben einzuführen.

Wie in der folgenden Abbildung gezeigt, ist das gesamte Modell in zwei Hauptteile aufgeteilt: ein größerer Trunk (Hauptnetzwerk) und ein Diffusion Module (Diffusionsmodul). Der Trunk ist für die Generierung von Token - Repräsentationen und paarweisen Repräsentationen für die bedingte Steuerung verantwortlich, während das Diffusionsmodul auf dieser Grundlage die dreidimensionale Struktur generiert. Der Trunk wird nur einmal ausgeführt, während das Diffusionsmodul mehrmals iterativ ausgeführt wird, um die dreidimensionalen Koordinaten aller Atome schrittweise zu entrauschen.

Architekturdiagramm des BoltzGen - Modells

In der Trunk - Phase ähnelt es dem Trunk - Modul von Boltz - 2 und ist für die Analyse der eingegebenen Proteinstruktur und der Zielinformationen verantwortlich. Das Trunk - Modul verarbeitet die tokenisierten Molekülstrukturen und verwendet hauptsächlich die PairFormer - Architektur, um die räumlichen Beziehungen zwischen Atomen effizient zu modellieren, indem es Dreiecksattention nutzt. Gleichzeitig kombiniert es die geometrische Restkodierung, um die Resttypen und die Atomkoordinaten gleichzeitig im kontinuierlichen Raum abzuleiten, anstatt auf diskrete Aminosäurelabels zu vertrauen. Dieser Mechanismus ermöglicht es dem Modell, die physikalischen Gesetze der Struktur beim Generieren wirklich zu verstehen, anstatt nur auf Datenwissen zu vertrauen.

In der Diffusion Module - Phase nimmt dieses Modul die verrauschten dreidimensionalen Atomkoordinaten (noisy 3D atomic coordinates) als Eingabe und prognostiziert ihre entrauschten Koordinaten. Gleichzeitig verwendet es die Standard - Transformer - Architektur und wird auf atomarer Ebene (atom level) und Token - Ebene (token level) gemeinsam ausgeführt. BoltzGen nutzt das kontinuierliche Raumdiffusionsmodell, um die Atomkoordinaten schrittweise zu "entrauschen" und zu generieren, indem es den Rauschvektor prognostiziert, um die Umwandlung von einem zufälligen Anfangszustand in eine stabile Konformation zu erreichen und die Einschränkungen der Molekülenergiefläche während der Generierung beizubehalten, um so physikalische Konflikte oder strukturelle Kollaps zu vermeiden.

Experimentelle Ergebnisse: Validierung der universellen Entwurfsfähigkeit über 26 Zielstellen hinweg

In der experimentellen Phase deckte die Validierung der Leistung des BoltzGen - Modells mehrere Dimensionen von Proteinen bis hin zu Peptiden, von neuen Pathogenen bis hin zu kleinen Molekülzielen ab und zeigte eine ausgezeichnete Generalisierungs - und Kontrollierfähigkeit.

Das Team hat in 8 unabhängigen Wet - Lab - Validierungsprojekten insgesamt 26 Zielstellen getestet, die verschiedene Binderarten wie Nanobody, Proteine, lineare und zyklische Peptide umfassen. Die Ergebnisse zeigen, dass BoltzGen auch bei unbekannten komplexen Zielen eine hohe Erfolgsrate beibehält: In 9 Experimenten mit neuen Zielstellen, die vollständig von den Trainingsdaten abweichen, haben die entworfenen Proteine und Nanobody in 66 % der Zielstellen eine nanomolare (nM) hohe Affinität erreicht, was die starke strukturelle Inferenz - und multimodale Entwurfsfähigkeit des Modells zeigt.

Experimentelle Ergebnisse des Proteindesigns

In Experimenten mit biologisch aktiven Peptiden mit unterschiedlicher Struktur können die von BoltzGen entworfenen Proteine Peptidmoleküle unterschiedlicher Typen mit einer Affinität im nanomolaren bis mikromolaren (μM) Bereich binden und ihre antibakterielle oder hämolytische Aktivität effektiv neutralisieren. Bei dem ungeordneten Protein NPM1, das mit akuter myeloischer Leukämie assoziiert ist, zeigt das vom Modell generierte Peptid in lebenden Zellen eine Nukleolus - Kolokalisation, was den ersten in - vivo - Beweis dafür liefert, dass von KI entworfene Proteine an natürliche ungeordnete Proteine binden können. 

Entwurf eines Peptids, das an die ungeordnete Region von NPM1 bindet

Der Entwurf für die Kernenzyme der Zellmetabolismus RagC und das RagA:RagC - Dimer hat ebenfalls bemerkenswerte Ergebnisse erzielt: Von 29 Kandidatenpeptiden haben 7 erfolgreich an RagC gebunden, wobei die höchste Affinität 3,5 µM erreichte; bei dem Entwurf von zyklischen Disulfidbrückenpeptiden haben 14 eine stabile Bindung gezeigt. 

Entwurf eines Peptids, das an eine bestimmte Stelle der RagC - GTPase bindet

BoltzGen hat auch auf zwei biomedizinisch relevanten kleinen Molekülen seine Fähigkeit zur Skalenübergreifenden Entwurf gezeigt, indem die generierten Proteinbinder in einem Bereich von 50 - 150 µM eine nachweisbare Bindungsaktivität gezeigt haben, was beweist, dass das Modell die Erkennung kleiner Moleküle ohne fachkundige chemische Beratung erreichen kann. Darüber hinaus hat in dem Entwurf von antibakteriellen Peptiden gegen die bakterielle DNA - Gyrase GyrA mehr als 19 % der Kandidatensequenzen das Bakterienwachstum um mehr als das Vierfache verringert, wobei einige Peptide die Wirtszellen direkt abtöten können. 

Entwurf eines Proteins, das an kleine Moleküle bindet

In 5 Tests mit Benchmark - Zielstellen mit bekannten Bindungsstrukturen (z. B. PD - L1, TNFα, PDGFR usw.) hat BoltzGen ebenfalls eine hohe Trefferquote erzielt - 80 % der Zielstellen haben nanomolare Binder gezeigt, was die Genauigkeit bestätigt, die mit dem derzeit besten Modell vergleichbar ist. 

Testergebnisse von Proteinbindern