StartseiteArtikel

Die Genauigkeit erreicht 97%. Das Princeton University und andere Institutionen haben MOFSeq-LMM vorgeschlagen, um effizient vorherzusagen, ob MOFs synthetisiert werden können.

超神经HyperAI2026-01-15 19:08
In den meisten MOF-Proben können Vorhersageergebnisse erzielt werden, die nahe am wahren Wert liegen.

Ein gemeinsames Forschungsunternehmen von der Princeton University und dem Colorado School of Mines hat eine effiziente, auf maschinellem Lernen basierende Prädiktionsmethode entwickelt. Mit Hilfe von Large Language Models (LLMs) wird direkt aus der Struktursequenz von Metall-organischen Gerüsten (MOFs) die freie Energie vorhergesagt, wodurch die Rechenkosten erheblich reduziert und eine Hochdurchsatz- und skalierbare thermodynamische Bewertung von MOFs ermöglicht wird.

Metall-organische Gerüste (Metal–Organic Frameworks, MOFs) zeigen aufgrund ihrer hochgradig anpassbaren Porenstruktur und vielfältigen chemischen Funktionalität ein enormes Potenzial in Anwendungen wie Gasspeicherung, -trennung, Katalyse und Arzneimitteltransport. Allerdings umfasst der riesige Entwurfsraum von MOFs Billionen möglicher Kombinationen von Bausteinen, und die rein experimentelle Erforschung ist äußerst ineffizient.

Um die Entdeckung von MOFs zu beschleunigen, wurden Rechenverfahren entwickelt, die darauf abzielen, neue MOFs zu generieren, ihre Eigenschaften vorherzusagen und schließlich ihre Synthese zu ermöglichen. Ein Hauptproblem in diesem Prozess ist die geringe Umwandlungsrate von der "Auswahl zur Synthese", was weitgehend auf die Unsicherheit der Synthesefähigkeit von computergenerierten MOFs zurückzuführen ist. Beispielsweise wurden in den bisher veröffentlichten Tausenden von computergestützten MOF-Screenings nur etwa ein Dutzend MOFs synthetisiert.

Die freie Energie ist ein wichtiger Indikator für die thermodynamische Stabilität und Synthesefähigkeit von MOFs. Allerdings sind herkömmliche Rechenmethoden für große MOF-Datensätze sehr kostspielig und eignen sich nicht für schnelle Screenings. Um diese Herausforderung zu meistern, hat das gemeinsame Forschungsunternehmen von der Princeton University und dem Colorado School of Mines eine effiziente, auf maschinellem Lernen basierende Prädiktionsmethode entwickelt. Mit Hilfe von Large Language Models (LLMs) wird direkt aus der Struktursequenz von MOFs die freie Energie vorhergesagt, wodurch die Rechenkosten erheblich reduziert und eine Hochdurchsatz- und skalierbare thermodynamische Bewertung von MOFs ermöglicht wird. Das Modell zeigt eine hohe Allgemeingültigkeit ohne erneutes Training: Bei der Beurteilung, ob die freie Energie eines MOFs über oder unter einem auf Erfahrungswerten basierenden Schwellenwert für die Synthesefähigkeit liegt, erreicht es einen F1-Wert von 97%.

Die Ergebnisse dieser Forschung wurden unter dem Titel "Highly Accurate and Fast Prediction of MOF Free Energy via Machine Learning" in den ACS Publications veröffentlicht.

Highlights der Studie:

* Basierend auf diesem Modell können Forscher die Ergebnisse von vollständigen Molekülsimulationen mit hoher Genauigkeit simulieren, ohne das Modell erneut trainieren zu müssen, und so die Synthesefähigkeit von MOFs beurteilen.

* Arbeiten, die zuvor im Labor oder durch Molekülsimulationen viel Zeit in Anspruch nahmen, können jetzt in vernachlässigbar kurzer Zeit durchgeführt werden.

* Diese Methode bietet eine praktikable Möglichkeit, die maschinelle Lernvorhersage der freien Energie als frühes oder spätes Screeningtool in der leistungsbasierten computergestützten MOF-Sichtung einzusetzen.

  • Link zur Publikation: https://pubs.acs.org/doi/10.1021/jacs.5c13960

MOFMinE: Ein Datensatz mit etwa einer Million MOF-Prototypen

Um das Modelltraining zu unterstützen, hat das Forschungsunternehmen einen riesigen MOF-Datensatz namens MOFMinE erstellt, der etwa eine Million MOF-Prototypen umfasst. Dieser Datensatz enthält Informationen über den gesamten Prozess von der Auswahl der Bausteine, der Abbildung auf Topologiemuster bis hin zur Funktionalisierung, wie in der folgenden Abbildung gezeigt:

Übersicht über die Erstellung und Charakterisierung des MOFMinE-Datensatzes, der etwa eine Million Strukturen enthält

Erstellungsmethode

Die Generierung des Datensatzes basiert auf der ToBaCCo-3.0-Plattform. Jeder MOF wird erzeugt, indem die Baueinheiten auf ein geeignet skaliertes (um die Größe der Baueinheiten anzupassen) Topologiemuster abgebildet werden. Dieses Muster bestimmt die räumliche Anordnung und Verbindungsweise der Baueinheiten in der MOF-Einheitszelle. Die ToBaCCo-Baueinheiten werden je nach ihrer Abbildungsposition in Knoten- (NBBs) oder Kanten-Typen (EBBs) eingeteilt: Knoten-Baueinheiten werden auf die Muster-Spitzen abgebildet, Kanten-Baueinheiten auf die Muster-Kanten. NBBs können in anorganische oder organische Typen unterteilt werden, wobei anorganische NBBs den sogenannten sekundären Baueinheiten (SBU) von MOFs entsprechen und organische NBBs mit EBBs kombiniert werden, um MOF-Verbindungen zu bilden.

Datengröße und Vielfalt

MOFMinE enthält 1.393 Topologiemuster, 27 anorganische NBBs, 14 organische NBBs und 19 Grund-EBBs sowie 13 Arten von Funktionalisierungen, was für chemische und topologische Vielfalt sorgt. Der Porositätsbereich (void fraction) der Datenbank reicht von 0,01 bis 0,99, die spezifische Oberfläche (GSA) von 26 bis 8382 m²/g und der maximale Porenradius (LPD) von 2,6 bis 127,7 Å, was den gesamten strukturellen Raum von MOFs abdeckt.

Teilmenge der freien Energie

Von den etwa einer Million MOF-Prototypen wurde für eine Teilmenge von 65.574 Strukturen die freie Energie erfasst. Diese Teilmenge enthält 379 Topologiemuster, 6 anorganische NBBs, 11 organische NBBs und 12 Grund-EBBs sowie 13 Arten von Funktionalisierungen. Die Poren-Eigenschaften der Teilmenge liegen im Bereich von Vf = 0,01 bis 0,97, GSA = 38 bis 7304 m²/g und LPD = 2,6 bis 87,8 Å. Dieser Datensatz wird für das Fine-Tuning und Testen des LLMs zur Vorhersage der freien Energie verwendet.

Das MOFSeq-LMM-Modell zur effizienten Vorhersage der freien Energie von MOFs

Unterstützt durch den MOFMinE-Datensatz, hat das Forschungsunternehmen das MOFSeq-LMM-Modell entwickelt, um die freie Energie von MOFs effizient vorherzusagen und einen datengesteuerten Entwurf von Struktur zu Eigenschaft zu ermöglichen. Das Kernkonzept dieses Frameworks besteht darin, die strukturellen Informationen von MOFs in eine computerlesbare Sequenzdarstellung (MOFSeq) umzuwandeln und diese mit einem Large Language Model zu lernen und vorhersagen, wodurch die physikalisch-chemischen Informationen beibehalten und die Rechenkosten erheblich reduziert werden.

MOFSeq-Darstellung

Um die Grenzen bestehender Darstellungsmethoden zu überwinden und die breite Vorhersage von MOF-Eigenschaften mit Large Language Models zu ermöglichen, haben die Forscher MOFSeq entwickelt. Diese neue, auf Zeichenketten basierende Sequenzdarstellung ist kompakt und hochinformativ und codiert die lokalen und globalen strukturellen Merkmale von MOFs auf optimale Weise, so dass das Sprachmodell sie effizient und skalierbar verarbeiten kann.

In MOFSeq umfassen die lokalen Informationen hauptsächlich die Atomzusammensetzung der Baueinheiten und ihre interne Verbindungsinformationen, während die globalen Informationen eine hochgradige Beschreibung der MOF-Baueinheiten und das Verbindungsmodell zwischen den Baueinheiten enthalten. Die lokalen Informationen werden mit dem MOFid-Tool erfasst, während die globalen Informationen auf ToBaCCo-3.0 basieren, wie in der folgenden Abbildung gezeigt:

Schematische Darstellung von MOFSeq

Erstellung des MOF-Datensatzes und Datenverarbeitung

Nach der Erstellung des MOFMinE-Datensatzes mit der oben beschriebenen Methode wurden alle von ToBaCCo generierten MOF-Prototypen mit dem UFF4MOF-Kraftfeld in LAMMPS (Version vom 29. Oktober 2020) optimiert, um die endgültigen MOF-Strukturen zu erhalten.

Der von ToBaCCo-3.0 generierte Datensatz enthält nur den MOFnamen und die entsprechende CIF-Datei als Darstellung jedes MOF. Allerdings erfordert MOFSeq sowohl den MOFnamen als auch die MOFid. Um die MOFid zu erhalten, haben die Forscher den von Bucior et al. entwickelten MOFid-Generator verwendet, der sowohl die MOFid als auch den MOFkey aus der CIF-Struktur eines MOF generieren kann.

Schließlich wurden 793.079 MOFSeq-Vorhersageproben in einen Trainingssatz von 634.463, einen Validierungssatz von 79.308 und einen Testsatz von 79.308 aufgeteilt. 54.443 MOFSeq-Fine-Tuning-Datenpunkte wurden in einen Trainingssatz von 43.554, einen Validierungssatz von 5.444 und einen Testsatz von 5.445 aufgeteilt.

Design des LLM-Prop-Modells

Basierend auf der MOFSeq-Darstellung hat das Forschungsunternehmen das LLM-Prop-Modell eingesetzt, ein Large Language Model, das speziell für die Vorhersage von Materialeigenschaften entwickelt wurde. Das LLM-Prop-Modell hat eine relativ moderate Größe von etwa 35 Millionen Parametern, was sowohl die Lernfähigkeit als auch die Rechenleistung gewährleistet. Die Eingabelänge des Modells ist auf 2.000 Tokens festgelegt, was die meisten strukturellen Sequenzinformationen von MOFs aufnehmen kann. Durch den Attention-Mechanismus kann das Modell die Auswirkungen verschiedener Bausteine und Topologiestrukturen auf die freie Energie adaptiv in der Sequenz erfassen und eine interaktive Darstellung von globalen und lokalen Merkmalen bilden.

Vorhersage und Fine-Tuning

* Vorhersagephase:

Die Forscher haben das LLM-Prop-Modell trainiert, um die Verformungsenergie von MOFs aus der MOFSeq-Darstellung vorherzusagen. Die Verformungsenergie wurde gewählt, weil ihre Berechnung kostengünstig ist und sie stark mit der freien Energie korreliert. Bei der Vorhersage wurden Dropout-Raten von 0,2 und 0,5 verwendet, und die Ergebnisse zeigen, dass ein Dropout von 0,2 sowohl bei der Vorhersage als auch bei nachgelagerten Aufgaben besser abschneidet. Die Eingabelänge von MOFSeq wurde auf 2.000 Tokens festgelegt.

* Fine-Tuning-Phase:

Die Einstellungen waren dieselben wie bei der Vorhersage, aber das Ziel des Modells wechselte zur Vorhersage der freien Energie, und die Anzahl der Trainings-Epochen wurde auf 200 erhöht. Das LLM-Prop-Modell ist als leichtgewichtiges Modell konzipiert, dessen Größe etwa 1/2000 von Llama 2 beträgt, wobei die Rechenleistung im Vordergrund steht. Diese Konzeption bringt einen Kompromiss mit sich: Im Vergleich zum Fine-Tuning eines großen LLMs wie Llama 2 oder GPT-2 benötigt LLM-Prop mehr Trainings-Epochen, um eine hohe Leistung zu erreichen, aber seine kleine Größe macht das Training möglich und effizient.

Die Vorhersagegenauigkeit der Synthese von MOFs erreicht 97%

Nachdem das MOFSeq-LMM-Modell trainiert wurde, hat das Forschungsunternehmen die Leistung des Modells bei der Vorhersage der freien Energie, der Beurteilung der Synthesefähigkeit und der Auswahl von polymorphen MOFs systematisch evaluiert. Die experimentellen Ergebnisse bestätigen nicht nur die hohe Genauigkeit des Modells, sondern auch sein Potenzial für die Hochdurchsatz-Entwicklung und Auswahl von MOFs.

Leistung bei der Vorhersage der freien Energie

Zunächst hat das Team die Leistung des LLM-Prop-Modells bei der Vorhersage der freien Energie von unbekannten MOF-Proben evaluiert. Die Ergebnisse zeigen, dass das Modell die freie Energie mit einem mittleren absoluten Fehler (MAE) von 0,789 kJ/molMOFatom präzise vorhersagen kann und gleichzeitig eine hohe Korrelation von R² = 0,990 erreicht, wie in Abbildung b gezeigt. Dies bedeutet, dass das Modell in den meisten MOF-Proben Vorhersagen liefert, die nahe am tatsächlichen Wert liegen.

Während der Vorhersagephase wurde das Modell mit Verformungsenergiedaten trainiert und erreichte einen MAE von 0,623 kJ/molMOFatom und ein R² von 0,965, wie in Abbildung a gezeigt. Diese hohe Korrelation in der Vorhersagephase zeigt, dass die Verformungsenergiedaten effektive erste Informationen für die Vorhersage der freien Energie liefern können und bestätigt die Rationalität der Vorhersagestrategie des Forschungsunternehmens. Eine weitere Analyse zeigt, dass die vorhersagte Verformungsenergie stark mit der nach dem Fine-Tuning vorhergesagten freien Energie korreliert, was den Wert der Verformungsenergie als kostengünstiger Ersatzindikator bei der Modellierung unterstreicht.

Leistung der Methode in dieser Studie bei der Vorhersage der freien Energie von MOFs

Ergebnisse der Ablationsstudie

Um die Leistungsquellen des Modells besser zu verstehen, hat das