AI-gestützte Quantendetailsoptimierung: Carnegie Mellon University und andere stellen AQuaRef vor, erstmals wird die Quantenmechanik zur Detailsoptimierung von Vollatommodellen von Proteinen herangezogen.
Ein gemeinsames Forschungs-Team aus der Carnegie Mellon University, der Universität Wrocław in Polen, der University of Florida und anderen Hochschulen hat eine künstliche-intelligenz-gesteuerte Methode zur Quantenverfeinerung namens AQuaRef entwickelt. Diese Methode basiert auf der maschinellen Lernatompotenzialfunktion AIMNet2 und wurde speziell für die Verfeinerungsaufgabe trainiert. Sie kann bei einer Berechnungseffizienz, die der klassischen Kraftfeldberechnung nahe kommt, die Ergebnisse der Quantenmechanik gut annähern und bietet somit einen neuen technologischen Ansatz für die vollatomare Quantenverfeinerung von Biomakromolekülen.
Um die molekularen Mechanismen von Lebensprozessen zu verstehen, muss man zunächst die dreidimensionale Struktur von Biomakromolekülen kennen. Die Aufklärung der atomaren Struktur ist die Kernaufgabe der Strukturbiologie und auch eine wichtige Grundlage für das Verständnis der Proteinfunktion, die Aufklärung des genetischen Regulationsmechanismus und die Entwicklung von zielgerichteten Arzneimitteln. Sowohl die katalytischen Reaktionen von Proteinen, die Übertragung genetischer Informationen durch Nukleinsäuren als auch die Erkennung von Antigenen durch Antikörper beruhen auf präzisen Strukturmodellen zur Erklärung.
Derzeit sind die Kryo-Elektronenmikroskopie und die Röntgenkristallographie die Hauptexperimentiertechniken zur Aufklärung der Biomakromolekülstruktur, und es wurden bereits eine große Menge an hochauflösenden Strukturdaten gesammelt. In den letzten Jahren haben auch die rechnerischen Vorhersagemethoden, repräsentiert durch AlphaFold und RoseTTAFold, bemerkenswerte Fortschritte erzielt und bieten effiziente Werkzeuge für die Strukturmodellierung. Bei der Entdeckung unbekannter Strukturtypen und der Aufklärung komplexer Wechselwirkungen hat die experimentelle Aufklärung jedoch immer noch eine unersetzliche Rolle. Im Prozess der experimentellen Strukturaufklärung ist die Verfeinerung des Atommodells ein Schlüsselschritt in der Nähe der Endphase. Ziel ist es, ein Molekülmodell zu erstellen, das sowohl den stereochemischen Regeln entspricht als auch möglichst gut mit den experimentellen Daten übereinstimmt. Die derzeitigen führenden Verfeinerungssoftware wie CCP4 und Phenix verlassen sich hauptsächlich auf die stereochemischen Beschränkungen in der Standarddatenbank, um eine vernünftige Bindungslänge und -winkel zu halten und Konflikte zwischen Atomen zu reduzieren.
Allerdings gibt es bei diesem Beschränkungssystem noch deutliche Einschränkungen. Es ist hauptsächlich auf kovalente Strukturen ausgerichtet und bietet keine systematische Beschreibung wichtiger nicht-kovalenter Wechselwirkungen wie Wasserstoffbrückenbindungen und π-Stacking. Unter Bedingungen niedriger Auflösung kann dies dazu führen, dass das Modell von dem realen chemischen Zustand abweicht. Wenn es in der Struktur neue Liganden oder besondere Verbindungen gibt, müssen die Parameter manuell definiert werden, um die Verfeinerung abzuschließen. Darüber hinaus können auch die durch die lokale chemische Umgebung verursachten vernünftigen geometrischen Abweichungen von dem Beschränkungssystem als abnormal eingeschätzt und zwangsweise korrigiert werden. Theoretisch kann die Quantenmechanikmethode die intermolekularen Wechselwirkungen genauer beschreiben. Biomakromoleküle enthalten jedoch normalerweise Tausende oder sogar Zehntausende von Atomen, und die vollständige Quantenberechnung ist sehr kostspielig. Daher beschränken sich die meisten bestehenden Studien auf lokale Bereiche wie die Ligandenbindungsstellen.
Um dieses Problem zu lösen, hat ein gemeinsames Forschungs-Team aus der Carnegie Mellon University, der Universität Wrocław in Polen, der University of Florida und anderen Hochschulen eine künstliche-intelligenz-gesteuerte Methode zur Quantenverfeinerung namens AQuaRef entwickelt. Diese Methode basiert auf der maschinellen Lernatompotenzialfunktion AIMNet2 und wurde speziell für die Verfeinerungsaufgabe trainiert. Sie kann bei einer Berechnungseffizienz, die der klassischen Kraftfeldberechnung nahe kommt, die Ergebnisse der Quantenmechanik gut annähern und bietet somit einen neuen technologischen Ansatz für die vollatomare Quantenverfeinerung von Biomakromolekülen.
Die zugehörigen Forschungsergebnisse wurden unter dem Titel „AQuaRef: machine learning accelerated quantum refinement of protein structures“ in Nature Communications veröffentlicht.
Highlights der Studie:
* AQuaRef basiert auf der maschinellen Lernpotenzialfunktion AIMNet2 und ermöglicht erstmals die Quantenverfeinerung eines vollständigen Protein-Atommodells.
* In Tests an 61 Modellen mit niedriger Auflösung aus Röntgen- und Kryo-Elektronenmikroskopie zeigte AQuaRef in 57 Modellen bessere Ergebnisse.
* Bei den kurzen Wasserstoffbrückenbindungen der Proteine DJ - 1 und YajL konnte AQuaRef die Positionen der Protonen ohne manuelle Intervention bestimmen, die mit den experimentellen Beweisen übereinstimmen.
Link zur Publikation:https://www.nature.com/articles/s41467-025-64313-1
Ein Datensatz mit einer Million Proben für das Training von maschinellen Lernpotenzialfunktionen für Peptide
Ziel dieser Studie ist es, ein parametrisiertes Modell für die maschinelle Lernpotenzialfunktion des Peptidsystems zu erstellen. Beim Entwurf des Datensatzes muss daher das chemische Zusammensetzungs-, Konformations- und intermolekulare Wechselwirkungsraumsystematisch abgedeckt werden.
In der chemischen Dimension haben die Forscher eine Datenbank für kleine Peptide in Form von SMILES-Strings erstellt, die 20 Standardaminosäuren, 11 Protonierungszustände, 3 N-terminale Modifikationen und 4 C-terminale Modifikationen umfasst. Auf dieser Grundlage wurden alle Mono- und Dipeptide aufgezählt, und einige Tri- und Tetrapeptide wurden zufällig ausgewählt. Gleichzeitig wurden zusätzliche Peptide mit Disulfidbrücken und deren Selenanaloga erzeugt. Um den Konformationsraum vollständig abzudecken, haben die Forscher die Software OpenEye Omega verwendet, um eine intensive Torsionswinkelsampling durchzuführen und keine Beschränkungen für die Chiralitätszentren gesetzt, so dass das Modell für Peptidsysteme mit D-, L- und gemischter Stereochemie geeignet ist.
Zusätzlich wurde ein Komplex aus 2 - 4 Peptiden erstellt, und seine räumliche Orientierung wurde zufällig eingestellt, um die intermolekularen Wechselwirkungen zu simulieren. Der gesamte Datenerzeugungsprozess hat sich nicht auf natürliche Sequenzen oder experimentelle Strukturen bezogen, um potenzielle Datenlecks zu vermeiden. Um das Rechenvolumen zu kontrollieren, wurde die Gesamtanzahl der Atome (einschließlich Wasserstoff) aller Peptide und ihrer Komplexe auf weniger als 120 begrenzt.
Nachdem die anfängliche Konformation erhalten wurde, haben die Forscher zunächst eine Molekulardynamiksimulation mit dem GFN - FF - Kraftfeld durchgeführt, um die ungleichgewichtige Struktur zu sammeln und die Gesamtkonfiguration durch die Kartesische Koordinatenbeschränkung nahe an der anfänglichen Eingabe zu halten, während die Torsionswinkel und die intermolekularen Freiheitsgrade freigegeben wurden.
Anschließend wurde die aktive Lernstrategie „query - by - committee“ eingeführt: Zunächst wurden 500.000 anfängliche Proben zufällig ausgewählt, um ein Integrationssystem aus 4 Modellen zu trainieren. Anschließend wurden vier Iterationen durchgeführt. In jeder Iteration wurden die Proben anhand der Unsicherheit der Energie- und Atomkraftvorhersage des Modells ausgewählt, und diese Strukturen mit hoher Unsicherheit wurden nach der DFT-Berechnung in den Trainingssatz aufgenommen. In der letzten Runde wurde zusätzlich eine unsicherheitsgesteuerte Optimierung eingeführt, bei der die Grenzstrukturen mit hoher Vorhersageunsicherheit aber niedriger Energie bevorzugt ausgewählt wurden. Durch diesen Prozess wurde schließlich ein Trainingssatz mit etwa einer Million Proben erhalten, mit einer durchschnittlichen Atomzahl von etwa 42.
Außer den theoretisch erzeugten Daten haben die Forscher auch experimentelle Strukturen aus den RCSB - und EMDB - Datenbanken zur Modellvalidierung ausgewählt. Die Auswahlkriterien umfassen: Ein Einzelkonformationsmodell, das nur Proteine enthält, eine Anzahl von Nicht-Wasserstoffatomen zwischen 1000 und 10000, eine Auflösung von 2,5 - 4 Å, eine MolProbity - Konfliktbewertung von weniger als 50 und eine Abweichung der Bindungslänge und -winkel von nicht mehr als dem Vierfachen des Standardwerts.
AQuaRef: Eine künstliche-intelligenz-gesteuerte Quantenverfeinerungsmethode für Makromolekülsysteme
AQuaRef führt zunächst eine Vollständigkeitsprüfung des eingegebenen Atommodells durch. Bei fehlenden Atomen in der Struktur versucht das Programm, diese automatisch zu ergänzen. Dieser Prozess kann jedoch manchmal neue sterische Konflikte einführen, insbesondere wenn das ursprüngliche Modell keine Wasserstoffatome enthält. Wenn es sich um Schlüsselstrukturen wie Hauptkettenatome handelt, kann das Modell nicht weiter mit der Quantenverfeinerung fortfahren. Wenn deutliche sterische Konflikte oder schwere geometrische Anomalien festgestellt werden, wird zunächst eine schnelle geometrische Regularisierung durch die standardmäßigen stereochemischen Beschränkungen durchgeführt, um das Problem unter möglichst geringer Veränderung der Atompositionen zu beseitigen.
Bei Röntgendaten muss bei der Verfeinerung auch die Symmetrie der Einheitszelle und die periodischen Wechselwirkungen berücksichtigt werden. Genauer gesagt erweitert das Programm das Modell gemäß den Symmetrieoperatoren der Raumgruppe zu einer Superzelle und führt eine Truncierung durch, indem nur die symmetrischen Kopien beibehalten werden, deren Abstand zu den Atomen der Hauptkopie innerhalb des festgelegten Bereichs liegt. Diese Behandlung ist normalerweise bei Kryo-Elektronenmikroskopiestrukturen nicht erforderlich.
Nach der Atomergänzung und Modellvergrößerung tritt das System in den Standardverfeinerungsprozess des Q|R - Softwarepakets ein. Die Kernarchitektur von AQuaRef stimmt im Wesentlichen mit dem Basis-AIMNet2 - Modell überein, aber es wurden einige Schlüsselanpassungen für die Strukturverfeinerungsaufgabe vorgenommen.
Zunächst berechnet das Modell die langreichweitigen Coulomb- und Dispersionswechselwirkungen nicht explizit, sondern wird direkt trainiert, um die Gesamtenergie von DFT - D4 zu reproduzieren. Dies liegt daran, dass unter dem CPCM - impliziten Lösungsmittelmodell die Coulombwechselwirkung schwer durch die partiellen Atomladungen genau geschätzt werden kann, und die langreichweitigen Wechselwirkungen wurden durch das polarisierbare kontinuierliche Medium erheblich abgeschirmt. Darüber hinaus trägt der langreichweitige Dispersionsanteil über einen Schnittradius von 5 Å nur minimal zur Atomkraft bei, die für den Verfeinerungsprozess wichtig ist, und kann daher vernachlässigt werden, ohne die Genauigkeit zu beeinträchtigen.
Zweitens hat das Modell den expliziten kurzreichweitigen exponentiellen Abstoßungsterm aus GFN1 - XTB eingeführt, wodurch es bei der Behandlung von Strukturen mit sterischen Konflikten eine bessere Stabilität zeigt. Das Modelltraining hat die Energie, die Atomkraft und die Hirshfeld - partiellen Atomladungen, die mit der Methode B97M - D4/def2 - QZVP berechnet wurden, als Ziel. Das Training wurde von der zufälligen Gewichtsinitialisierung aus gestartet, die Batch - Größe betrug 256, die Gesamtanzahl der Trainingsschritte war 1,5 Millionen, und die anderen Hyperparameter wurden aus dem ursprünglichen AIMNet2 - Setup übernommen.
In Bezug auf die Rechenleistung zeigt sich, wie in der folgenden Abbildung dargestellt, dass die Berechnungszeit für Energie und Atomkraft im AIMNet2 - Framework sowie der maximale GPU - Speicherbedarf linear (O(N)) mit der Anzahl der Atome im System ansteigen. Für ein Proteinsystem mit etwa 100.000 Atomen benötigt die Einpunktenergie- und Kraftberechnung nur etwa 0,5 Sekunden. Auf einer einzelnen NVIDIA H100 - GPU mit 80 GB Speicher kann ein Modell mit bis zu etwa 180.000 Atomen verarbeitet werden.
Die Skalierungsregeln der Berechnung der maschinellen Lernatomzwischenpotenzialfunktion AIMNet2 in AQuaRef
Validierung an 41 Kryo-Elektronenmikroskopie- und 20 Röntgenmodellen: AQuaRef erreicht eine lokale Strukturoptimierung von 2 Å
Um die Leistung von AQuaRef zu bewerten, haben die Forscher einen Testsatz mit 41 Kryo-Elektronenmikroskopiemodellen, 20 Modellen mit niedriger Auflösung und 10 Modellen mit ultrahoher Auflösung aus Röntgenkristallographie erstellt. 61 der Modelle mit niedriger Auflösung haben jeweils ein zugehöriges hochauflösendes homologes Referenzmodell. Bei der Verfeinerung wurden drei Beschränkungsbedingungen für den Vergleich festgelegt: Die AIMNet2 - Quantenbeschränkung (d. h. AQuaRef), die Standardgeometriebeschränkung und die zusätzlichen Beschränkungen wie Wasserstoffbrückenbindungen und Sekundärstrukturen auf der Grundlage der Standardbeschränkung.
Wie in der folgenden Abbildung gezeigt, sind die geometrischen Indizes wie der MolProbity - Score und der Ramachandran - Plot - Z - Score der Modelle mit niedriger Auflösung nach der Quantenverfeinerung deutlich besser als die der traditionellen Beschränkungsmethoden. Gleichzeitig bleibt der Anpassungsgrad des Modells an die experimentellen Daten im Wesentlichen gleich. Bei Röntgenstrukturen ist das Überanpassungsmaß etwas geringer (der Unterschied zwischen Rwork und Rfree ist kleiner). Bei Kryo-Elektronenmikroskopiestrukturen sinkt der CCmask etwas, während die EMRinger - Bewertung im Wesentlichen gleich bleibt. In Verbindung mit der allgemeinen Verbesserung der geometrischen Qualität deutet dieses Ergebnis darauf hin, dass die Überanpassung des Modells möglicherweise verringert wurde.
Obwohl die zusätzlichen geometrischen Beschränkungen in der Standardbeschränkung auch die Modellqualität verbessern können, kann AQuaRef immer noch eine vernünftigere geometrische Struktur erzielen und ist dem hochauflösenden Referenzmodell näher. In einigen Fällen kann der lokale Unterschied zwischen der Struktur, die mit der Standardbeschränkung und der Quantenverfeinerung erhalten wurde, bis zu 2 Å betragen.