Selbstständige Generierung neuer Materialien: Wissenschaftler haben auf der Grundlage eines Bayes'schen Optimierungsrahmens das inverse Design von galliumhaltigen Materialien realisiert. Die Optimierungsergebnisse weisen 100 % Eindeutigkeit und Neuheit auf.
Ein Forschungsunternehmen, geleitet von der Flinders-Universität in Kooperation mit der Khalifa-Universität der Vereinigten Arabischen Emirate, hat einen maschinell lernenden Bayes'schen Optimierungsrahmen (BO) entwickelt. Dieser ermöglicht die inverse Konstruktion von galliumbasierten Zusammensetzungen mit vordefinierten elektronischen Eigenschaften unter Beibehaltung der chemischen Plausibilität. Die optimierten Analyseergebnisse zeigen, dass die generierten Materialien im Vergleich zu den Trainingsdaten eine 100 %ige Einzigartigkeit und Neuheit aufweisen und dass die Effektivität von SMACT im Bandlückenintervall von 1,5–2,5 eV signifikant verbessert wird.
In der modernen Halbleiterindustrie werden die Grenzen der Materialeigenschaften ständig erweitert. Von hocheffizienten Photovoltaikbauelementen über hochleuchtende Leuchtdioden (LED) bis hin zu Hochfrequenzkommunikations- und Quanteninformationssystemen - fast alle Schlüsseltechnologien basieren auf einer Kernfähigkeit: Die genaue Steuerung der elektronischen Struktur von Materialien, insbesondere die präzise Gestaltung der Bandlücke (Band gap). Doch dieses Ziel war in der traditionellen Materialwissenschaft lange Zeit schwer zu erreichen.
Der Grund dafür ist, dass die elektronischen Eigenschaften von Materialien nicht einfach von einem einzelnen Element bestimmt werden, sondern von komplexen chemischen Bindungen, Kristallstrukturen, der Hybridisierung elektronischer Orbitale sowie der gemeinsamen Wirkung mehrerer Elemente beeinflusst werden. Unter den vielen Materialsystemen nehmen galliumbasierte Halbleiter eine einzigartige Position ein. Die ausgezeichnete chemische Vielfalt und die Mehrwertigkeit des Galliums ermöglichen es, eine Reihe von einstellbaren elektronischen Eigenschaften, von breiten bis schmalen Bandlücken, zu zeigen.
Galliumhaltige Verbindungen sind bereits die Grundlage für Schlüsseltechnologien in der Optoelektronik und Energieumwandlung, wie hocheffiziente Solarzellen, hochleuchtende LEDs und Hochfrequenzkommunikationsbauelemente. Sie werden auch zu potenziellen Kandidaten für flexible, biokompatible und implantierbare elektronische Systeme. Trotz jahrzehntelanger Forschung hängt die Entdeckung neuer galliumhaltiger Materialien mit bestimmten elektronischen Eigenschaften immer noch weitgehend von empirischen Untersuchungen ab - hauptsächlich wegen des riesigen Entwurfsraums der Zusammensetzungen und der hohen Rechenkosten der ersten-Prinzipien-Berechnungen.
Vor diesem Hintergrund hat das von der Flinders-Universität geleitete Forschungsunternehmen in Kooperation mit der Khalifa-Universität der Vereinigten Arabischen Emirate einen maschinell lernenden Bayes'schen Optimierungsrahmen (BO) entwickelt, der die inverse Konstruktion von galliumbasierten Zusammensetzungen mit vordefinierten elektronischen Eigenschaften unter Beibehaltung der chemischen Plausibilität ermöglicht.
Mithilfe dieses einheitlichen Rahmens kann das System autonom neue, chemisch wirksame galliumhaltige Materialien generieren und eine einstellbare Bandlücke von 0,5–3,5 eV erreichen - ein Energiebereich, der für Anwendungen in der Solarenergie, Photonik und Leistungselektronik von großer Bedeutung ist. Der Bayes'sche Optimierungsprozess kann die Suche adaptiv in die Region mit der höchsten "erwarteten Verbesserung" lenken. Die optimierten Analyseergebnisse zeigen, dass die generierten Materialien im Vergleich zu den Trainingsdaten eine 100 %ige Einzigartigkeit und Neuheit aufweisen und dass die Effektivität von SMACT im Bandlückenintervall von 1,5–2,5 eV signifikant verbessert wird.
Die Ergebnisse dieser Forschung wurden unter dem Titel "Bayesian Optimization-Guided Discovery of Gallium-Containing Semiconductors with Targeted Band Gaps" in der ACS Publications veröffentlicht.
Highlights der Forschung:
* Der neue Rahmen kann die inverse Materialentwicklung unter realistischen chemischen Einschränkungen beschleunigen und bietet eine Alternative zu den traditionellen, auf DFT (Dichtefunktionaltheorie) basierenden Screeningmethoden.
* Der neue Rahmen kann nicht nur effizient die chemisch plausiblen Bereiche abdecken, sondern auch eine hohe Neuheit und Vielfalt der Zusammensetzungen im Vergleich zu bestehenden Datenbanken aufweisen.
* Die Forschung hat die Grenzen der traditionellen Vorhersage statischer Eigenschaften überwunden und die Halbleiterforschung in eine datengesteuerte, generative Forschungsparadigma geführt.
Link zur Publikation: https://pubs.acs.org/doi/10.1021/acsmaterialslett.5c01482
Datenmenge: Aufbau eines chemischen Lernraums aus einer echten Materialdatenbank
In dieser Studie wurden die Datenbanken NOMAD und Materials Project zur Training des Modells verwendet. Die Daten umfassen die chemische Zusammensetzung der Materialien und die entsprechende experimentelle Bandlückenwerte, wie z. B. Ga₄P₄, GaAs, GaN, Ga₂O₃ usw. Der ursprüngliche Datensatz enthielt 2.530 Einträge über Materialzusammensetzungen und deren Bandlücken.
Um die Datenqualität zu gewährleisten, wurden in der Studie die Proben, die fehlende Werte in den Spalten "composition" oder "band_gap" enthielten, entfernt. Gleichzeitig wurden die nicht-physikalischen oder negativen Bandlückendaten herausgefiltert, und doppelte Einträge wurden entfernt. Schließlich blieben 1.578 effektive Zusammensetzungen für die Modellierung übrig. Darüber hinaus wurden die chemischen Formelzeichen mithilfe des pymatgen-Softwarepakets standardisiert, um chemisch äquivalente Terme zusammenzufassen. Die Einheit der Bandlücke wurde von Joule einheitlich in Elektronenvolt (eV) umgewandelt. Im vorverarbeiteten Datensatz lag der Bandlückenbereich zwischen 0,0 und 5,92 eV, der Durchschnittswert betrug etwa 1,8 eV, und die Standardabweichung war 1,6 eV.
Die Studie führte eine weitere Selektion der Materialzusammensetzungen durch und behielt nur die Verbindungen, die Elemente aus einem vordefinierten Satz von Atomnummern enthielten, um sicherzustellen, dass die Forschung sich auf das galliumbasierte Materialsystem konzentrierte. Gleichzeitig wurden mehrere zusätzliche Merkmale erstellt, darunter:
* Die Anzahl der Elemente in jeder chemischen Formel
* Die Länge der chemischen Formelzeichenkette
* Ein binäres Indikator, ob das Galliumelement vorhanden ist oder nicht
Der Datensatz wurde anschließend im Verhältnis 8:2 zufällig in einen Trainingssatz und einen Testsatz aufgeteilt, und die Aufteilung wurde auf "Zusammensetzungs-Ebene" durchgeführt, um zu vermeiden, dass chemisch ähnliche Verbindungen gleichzeitig in verschiedenen Datensätzen auftauchen. Die Studie verwendete auch eine Fünffach-Kreuzvalidierung, um die Robustheit des Modells unter verschiedenen Datenaufteilungsbedingungen zu bewerten.
Rahmen: Die kooperative Gestaltung von maschinellem Lernen und Bayes'scher Optimierung
Diese Studie hat einen Bayes'schen Optimierungsrahmen (BO) mit chemischen Einschränkungen vorgeschlagen, wie in der folgenden Abbildung gezeigt. Zunächst wird ein Gradienten-Boosting-Regressionsmodell, das auf einem Datensatz von galliumbasierten Verbundmaterialien trainiert wurde, verwendet, um die Bandlücke des Materials vorherzusagen. Anschließend führt die Bayes'sche Optimierung eine iterative Suche im eingeschränkten Zusammensetzungsraum durch. Schließlich werden die generierten Kandidatenmaterialien mithilfe der Werkzeuge SMACT und pymatgen auf chemische Wirksamkeit, Neuheit und Einzigartigkeit gescreent, um die galliumbasierten Verbundmaterialien mit der besten Leistung und die bisher noch nicht erforschten zu identifizieren.
Der maschinell lernende Arbeitsablauf für die Entdeckung von galliumbasierten Verbundmaterialien
Vorhersagemodellschicht
Die Studie hat systematisch acht maschinelle Lern-Regressionsalgorithmen bewertet, darunter lineare Modelle, Support-Vektor-Regression, Random Forest, Gradienten-Boosting und K-Nächste-Nachbarn (KNN). Die Ergebnisse zeigen, dass die nichtlinearen Modelle insgesamt deutlich besser als die linearen Modelle performen, was darauf hinweist, dass zwischen der Materialzusammensetzung und der Bandlücke eine starke nichtlineare Beziehung besteht. Unter diesen Modellen hat das KNN-Modell die beste Leistung gezeigt, mit einem R²-Wert von 0,812 und ist auch in Bezug auf die Fehlerindikatoren besser als die anderen Modelle.
Unter allen Kandidatenmodellen wurde das KNN-Modell schließlich als Surrogatmodell in der Bayes'schen Optimierung ausgewählt. Der Grund ist, dass es eine ausgezeichnete lokale Interpolationsfähigkeit aufweist und eine stabile Leistung unter verschiedenen zufälligen Aufteilungsbedingungen beibehält. Im Gegensatz zu baumbasierten Ensemblemodellen kann das KNN-Modell die Nachbarschaftsbeziehungen im Merkmalsraum der Zusammensetzung beibehalten, was für die Identifizierung der Ähnlichkeit zwischen Materialien mit ähnlichen Elementverhältnissen von entscheidender Bedeutung ist.
In der Bayes'schen Optimierungssituation ist diese "Fähigkeit zur lokalen Beibehaltung" besonders wichtig, da die Optimierungs-Suche oft auf potentielle Regionen in der Nähe bekannter guter Kandidaten konzentriert ist. Daher können die nicht-parametrischen und lokal adaptiven Eigenschaften des KNN-Modells der Optimierungsfunktion eine sanftere und zuverlässigere Suchführung bieten und gleichzeitig in einem schwach besampelten Materialraum eine hohe Rechenleistung beibehalten.
Bayes'sche Optimierung (Bayesian Optimization) Modul
Dieser BO-Arbeitsablauf nutzt das KNN-Surrogatmodell, um die Suche nach galliumhaltigen Zusammensetzungen mit einer Ziel-Bandlücke zu leiten und erreicht durch die "erwartete Verbesserung" (Expected Improvement) Akquisitionsfunktion ein Gleichgewicht zwischen "Erkundung" und "Ausnutzung", um so die Kandidaten-Stoffmengenverhältnisse im galliumzentrierten Zusammensetzungsraum zu generieren.
Das System hat mehrere Einschränkungsbedingungen festgelegt, darunter: Jede Zusammensetzung darf maximal vier Elemente enthalten und muss die Mindest-Galliumgehaltanforderung erfüllen, um sicherzustellen, dass die Kandidatenmaterialien mit dem Forschungsgegenstand des galliumbasierten Systems relevant sind.
Chemische Einschränkungsfilterungsschicht
Alle generierten Kandidatenmaterialien müssen mithilfe des SMACT-Werkzeugs validiert werden, einschließlich Einschränkungen wie Ladungsgleichgewicht, Plausibilität der Oxidationsstufe und Übereinstimmung der Elektronegativität, um sicherzustellen, dass die generierten Materialien nicht nur im mathematischen Raum existieren, sondern auch chemisch realisierbar sind.
Darüber hinaus kombiniert dieser Rahmen auch interpretierbare Künstliche Intelligenz (XAI) -Methoden und nutzt die SHAP-Analyse, um die Entscheidungslogik des Modells zu verstehen, so dass die Materialvorhersage von einem "Black-Box-System" zu einem "interpretierbaren System" wird.
Beschleunigung der inversen Materialentwicklung unter realistischen chemischen Einschränkungen
Die Forscher haben eine Reihe von Experimenten entworfen, um die Leistung, die strukturellen Merkmale, die Interpretierbarkeit und die chemische Wirksamkeit des Modells zu bewerten und zu analysieren:
Modellleistungsbewertung
Bei der Bewertung der Modellleistung hat das KNN-Modell in der Kreuzvalidierung eine stabile Leistung gezeigt, mit einem R²-Wert von etwa 0,60±0,07 und einem RMSE von etwa 1,02 eV, was darauf hinweist, dass das Modell in einem schwach besampelten chemischen Raum eine gute Generalisierungsfähigkeit aufweist.
Die Analyse der Merkmalswichtigkeit in der folgenden Abbildung zeigt, dass der Schmelzpunkt, der Elektronegativitätsbereich und die Elektronegativitätsabweichung die Schlüsselfaktoren für die Bandlückenvorhersage sind, was eng mit der Bindungsstärke und dem Ladungstransferverhalten im Material zusammenhängt. Mit zunehmender Elektronegativitätsdifferenz nimmt die Bandlücke ab, während eine Zunahme des Schmelzpunkts und der Kohäsionsenergie einer größeren Bandlücke entspricht. Diese Gesetzmäßigkeit stimmt gut mit dem traditionellen Verständnis der Halbleiterphysik überein.
Die wichtigsten Merkmale im endgültigen KNN-Modell. Das Balkendiagramm zeigt den relativen Beitrag jedes Merkmals zum Split-Gain des Modells. Je höher der Wert, desto signifikanter ist der Einfluss.
Fähigkeit, reale chemische Regeln aus den Daten zu lernen
In der Generierungsphase hat die Bayes'sche Optimierung insgesamt 1.025 Kandidaten galliumhaltiger Zusammensetzungen vorgeschlagen, von denen nur 38 durch die SMACT-Selektion gelangten, was darauf hinweist, dass die chemischen Machbarkeitsbeschränkungen sehr streng sind. Diese wirksamen Materialien konzentrieren sich hauptsächlich im Bereich von 2,0–2,5 eV, was bedeutet, dass in diesem Bereich leichter Halbleiter mit mittlerer Bandlücke und sowohl ionischen als auch kovalenten Bindungseigenschaften gebildet werden können. Diese Ergebnisse stimmen gut mit den bekannten Systemen überein, wie z. B. Ga₂O₃ (≈4,8 eV) und Ga₂S₃ (≈2,5 eV).
Der BO-Suchprozess zeigt auch eine Tendenz, sich an die bekannten galliumhaltigen chemischen Familien (z. B. Ga–O, Ga–N, Ga–As/Sb) zu sammeln und in diesen Bereichen neue Zwischenzusammensetzungen und -stöchiometrien vorzuschlagen, wie z. B. Ga₀.₅₁As₀.₁₆N₀.₂₄Sb₀.₁₀ und Ga₀.₁₇₁Sb₀.₁₇₅O₀.₃₆₇F₀.₂₈₆.
Für Materialien mit breiter Bandlücke (>3,0 eV) bevorzugt der Algorithmus eher sauerstoffreiche Verbindungen, da starke Ga–O-Bindungen zur Verbreiterung der Bandlücke beitragen. Eine niedrigere Bandlücke (etwa 1