自主生成新型材料,科学家基于贝叶斯优化框架实现含镓材料反向设计,优化结果具有100%独特性和新颖性
由弗林德斯大学牵头,与阿联酋哈利法大学合作的研究团队提出了一种机器学习引导的贝叶斯优化(BO)框架,可在保持化学合理性的前提下,实现具备预设电子性质的镓基组分反向设计。优化后的分析结果表明,生成材料相对于训练数据具有 100% 的唯一性与新颖性,并且在 1.5–2.5 eV 带隙区间内,SMACT 有效性显著提升。
在现代半导体产业中,材料性能的边界正在被不断推向更高维度。从高效光伏器件到高亮度发光二极管(LED),再到高频通信与量子信息系统,几乎所有关键技术的底层,都依赖于一种核心能力——对材料电子结构的精确调控,尤其是对带隙(band gap)的精准设计。然而,这一目标在传统材料科学体系中长期难以实现。
原因在于,材料的电子性质并非简单由单一元素决定,而是受到复杂的化学键合、晶体结构、电子轨道杂化以及多元素协同作用的共同影响。在众多材料体系中,基于镓的半导体占据着独特地位。镓元素优异的化学多样性以及多价态特性,使其能够展现从宽带隙到窄带隙的一系列可调电子性质。
含镓化合物已经成为高效率太阳能电池、高亮度 LED 以及高频通信器件等关键光电与能量转换技术的重要基础,同时也正成为柔性、生物兼容以及可植入电子系统中的潜力候选材料。然而,尽管相关研究已发展数十年,针对特定目标电子性质的新型含镓材料发现过程,仍在很大程度上依赖经验探索——这主要受限于庞大的组分设计空间,以及基于第一性原理计算所带来的高昂计算成本。
在这一背景下,由弗林德斯大学牵头,与阿联酋哈利法大学合作的研究团队提出了一种机器学习引导的贝叶斯优化(BO)框架,可在保持化学合理性的前提下,实现具备预设电子性质的镓基组分反向设计。
借助这一统一框架,系统能够自主生成新型、化学有效的含镓材料,并实现 0.5–3.5 eV 可调带隙——这一能量范围对太阳能、光子学以及功率电子等应用具有重要意义。贝叶斯优化过程能够自适应地将搜索引导至「期望改进」最高的区域,优化后的分析结果表明,生成材料相对于训练数据具有 100% 的唯一性与新颖性,并且在 1.5–2.5 eV 带隙区间内,SMACT 有效性显著提升。
相关研究成果以「Bayesian Optimization-Guided Discovery of Gallium-Containing Semiconductors with Targeted Band Gaps」为题,已刊登 ACS Publications。
研究亮点:
* 新框架能够在现实化学约束条件下加速反向材料设计,为传统以 DFT(密度泛函理论)为核心的筛选方法提供了一种替代方案
* 新框架不仅能够高效覆盖化学上合理的区域,还能相对于现有数据库保持较高的新颖性与组分多样性
* 研究突破了传统静态性质预测的局限,推动半导体发现迈向一种数据驱动的生成式研究范式
论文地址:https://pubs.acs.org/doi/10.1021/acsmaterialslett.5c01482
数据集:从真实材料数据库中构建化学学习空间
本研究采用了 NOMAD 与 Materials Project 数据库训练模型,数据内容包括材料化学组分及其对应的实验带隙值,例如 Ga₄P₄、GaAs、GaN、Ga₂O₃ 等,初始数据集包含 2,530 条材料组分及其带隙记录。
为了保证数据质量,研究删除了 「composition」 或 「band_gap」 列中存在缺失值的样本,同时剔除了非物理或负值带隙数据,并去除了重复记录,最终保留了 1,578 个有效组分用于建模。此外,研究还借助 pymatgen 软件包对化学式字符串进行了标准化处理,以合并化学等价项。带隙单位则由焦耳统一转换为电子伏特(eV)。预处理后的数据集中,带隙范围为 0.0–5.92 eV,平均值约为 1.8 eV,标准差为 1.6 eV。
研究进一步对材料组分进行了筛选,仅保留包含预定义原子序数集合中元素的化合物,以确保研究聚焦于镓基材料体系。同时,还构建了若干附加特征,包括:
* 每个化学式中的元素数量
* 化学式字符串长度
* 镓元素存在与否的二元指标
数据集随后按照 8:2 的比例随机划分为训练集与测试集,并在「组分层面」完成划分,以避免化学上相近的化合物同时出现在不同数据集中。研究还采用了五折交叉验证,以评估模型在不同数据划分条件下的鲁棒性。
框架:机器学习与贝叶斯优化的协同设计
本研究提出了一种具有化学约束的贝叶斯优化(BO)框架,如下图所示——其首先利用基于镓基复合材料数据集训练得到的梯度提升回归模型预测材料带隙;随后,贝叶斯优化在受约束的组分空间中进行迭代探索;最后,生成的候选材料通过 SMACT 与 pymatgen 工具进行化学有效性、新颖性以及唯一性筛选,从而识别出性能最优且此前尚未被探索的镓基复合材料。
面向镓基复合材料发现的机器学习引导工作流程
预测模型层
研究系统性评估了 8 种机器学习回归算法,包括线性模型、支持向量回归、随机森林、梯度提升以及 K 近邻(KNN)等。结果显示,非线性模型整体显著优于线性模型,说明材料组分与带隙之间存在强非线性关系。其中,KNN 模型表现最佳,R² 达到 0.812,并在误差指标上也优于其他模型。
在所有候选模型中,KNN 最终被选为贝叶斯优化中的代理模型,原因在于它具有优秀的局部插值能力,并在不同随机划分条件下保持稳定表现。与基于树的集成模型不同,KNN 能够保留组分特征空间中的邻域关系,这对于识别具有相似元素比例的材料之间的相似性至关重要。
在贝叶斯优化场景下,这种「局部保持能力」尤为重要,因为优化搜索往往集中于已知优质候选附近的潜在区域。因此,KNN 的非参数化与局部自适应特性,能够为优化器提供更加平滑且可靠的搜索引导,同时在稀疏采样的材料空间中依然保持较高计算效率。
贝叶斯优化(Bayesian Optimization)模块
该 BO 工作流利用 KNN 代理模型,引导对目标带隙含镓组分的搜索,并通过「期望改进(Expected Improvement)」采集函数,在「探索」与「利用」之间取得平衡,从而在以镓为中心的组分空间中生成候选化学计量比。
系统设置了多项约束条件,包括:每个组分最多包含 4 种元素 ,且必须满足最低镓含量要求,以确保候选材料与镓基研究主题保持相关性。
化学约束过滤层
所有生成的候选材料必须通过 SMACT 工具验证,包括电荷平衡、氧化态合理性以及电负性一致性等约束条件,从而确保生成材料不仅在数学空间中成立,也在化学意义上可实现。
此外,该框架还结合了可解释人工智能(XAI)方法,利用 SHAP 分析模型决策逻辑,使材料预测从「黑箱」转向「可解释系统」。
在现实化学约束条件下加速反向材料设计
研究人员设计了系列实验,来对模型的性能、结构特征、可解释性与化学有效性进行评估和分析:
模型性能评估
在模型性能评估方面,KNN 模型在交叉验证中表现稳定,R² 约为 0.60±0.07,RMSE 约为 1.02 eV,说明模型在稀疏化学空间中具有较好的泛化能力。
如下图的特征重要性分析显示,熔点、电负性范围以及电负性偏差是影响带隙预测的关键因素,这与材料中键强度与电荷转移行为密切相关。随着电负性差异增大,带隙呈下降趋势,而熔点和内聚能增加则对应更大的带隙,这一规律与传统半导体物理认知高度一致。
最终 KNN 模型中最重要的特征。柱状图表示各特征对模型分裂增益(split gain)的相对贡献,数值越高代表影响越显著
从数据中学习真实化学规则的能力
在生成阶段,贝叶斯优化共提出 1,025 个候选含镓组分,其中仅有 38 个通过 SMACT 筛选,说明化学可行性约束极为严格。这些有效材料主要集中在 2.0–2.5 eV 区间,这意味着该区域更容易形成兼具离子键与共价键特征的中等带隙半导体,这些结果与已知体系高度一致,例如:Ga₂O₃(≈4.8 eV) ,Ga₂S₃(≈2.5 eV) 。
BO 搜索过程还表现出向已知含镓化学家族(如 Ga–O、Ga–N、Ga–As/Sb)聚集的趋势,并在这些区域内提出了新的中间组分化学计量比,例如:Ga₀.₅₁As₀.₁₆N₀.₂₄Sb₀.₁₀ ,Ga₀.₁₇₁Sb₀.₁₇₅O₀.₃₆₇F₀.₂₈₆ 。
对于宽带隙材料(>3.0 eV),算法更倾向于富氧化合物,因为强 Ga–O 键有助于扩大带隙;而较低带隙(约 1.5–2.0 eV)则通常通过以硫、硒或磷替代氧元素实现,引入更强的 p–p 相互作用。这些规律与已有实验观察结果高度一致,说明该模型已经能够从数据中「隐式学习」到真实化学规则。
捕捉真实存在的「结构—性质关系」的能力
为了确认所生成的含镓组分对应的是「物理上可实现」的材料,研究团队采用了由 Park 等人开发的 Chemeleon-dng 模型,对其晶体原型进行了预测,如下图所示:
生成的含镓(Ga)复合化合物代表性晶体结构
通过 SMACT 验证的候选组分,表现出了化学上合理的配位环境,其中以四面体和八面体配位的镓中心为主,这与已知的 Ga₂O₃、GaN 和 GaSe 等晶体原型高度一致。代理模型成功再现了符合经验规律的电子结构层级关系——氧化物:3.5–4.8 eV,硫属化物:1.8–2.6 eV,氮族化合物:约 1.2–2.0 eV ,即:氧化物带隙 > 硫属化物带隙 > 氮族化合物带隙。
这一结果说明,该贝叶斯优化工作流已经能够有效捕捉真实存在的「结构—性质关系」。
值得注意的是,38 个通过验证的有效组分中,没有任何一个与现有已知材料重复,这进一步证明了生成结果同时具备「新颖性」与「化学自洽性」。
DFT 验证
研究人员进一步进行了 DFT 验证,下表总结了 10 个通过 SMACT 验证的组分中,「模型预测带隙」与「DFT 计算带隙」的对比结果,以及对应的带隙类型。
十种通过 SMACT 验证的组分中,模型预测带隙与 DFT 计算带隙的对比结果
整体来看:平均绝对误差(MAE)= 0.890 eV,均方根误差(RMSE)= 1.158 eV,中位绝对误差 = 0.784 eV。虽然存在一定偏差,但在材料发现早期筛选阶段已具有较高实用价值。更重要的是,所有通过验证的材料均未在已知数据库中出现,体现出较高的新颖性。
结语
总体而言,这项研究展示了一种面向含镓半导体的全新材料设计范式:通过机器学习建模、贝叶斯优化搜索以及化学约束筛选的协同作用,实现从「数据」到「新材料」的自动化生成路径。
从产业视角来看,这一方法对于光伏材料设计、发光器件开发以及宽禁带半导体研究具有潜在价值。尤其是在新一代功率电子与光电子器件快速发展的背景下,对带隙可控材料的需求正在快速增长,而 AI 驱动的材料设计方法有望成为加速这一进程的关键工具。
更进一步,该框架的意义并不局限于镓体系,其方法论同样可扩展至铟、锡乃至无铅半导体体系,为复杂多元化合物的理性设计提供通用路径。这标志着材料科学正在从「经验试错」迈向「算法生成」的新阶段,而人工智能正在成为连接化学规则与材料发现之间的核心桥梁。
参考文献:https://techxplore.com/news/2026-05-ai-discovery-gen-chips-electronic.htmlhttps://pubs.acs.org/doi/10.1021/acsmaterialslett.5c01482
本文来自微信公众号“HyperAI超神经”,作者:HyperAI,36氪经授权发布。