天天看点

模拟数据注入优化加速数据驱动的材料发现

作者:初六睡不醒

文丨初六睡不醒

编辑丨初六睡不醒

前言

人工智能的最新进展为加速新材料的发现铺平了道路。这些进步包括数据驱动方法,它利用机器学习模型和优化算法对可能具有所需目标特性的潜在候选材料做出明智的决策。

负担就留给验证方法,例如实验室测试或计算方法,以确定建议的材料是否确实是正在寻找的目标材料。如果材料被验证为不是最佳或不合适的,其数据将被吸收用于改进的ML模型,并且该过程将继续进行,直到发现所需材料或资源耗尽。

模拟数据注入优化加速数据驱动的材料发现

使用这种数据驱动的发现方法使实验自动化,例如通过使用自动驾驶实验室,典型的数据驱动方法要么尝试使用更具代表性的分布来丰富数据,以提高底层ML模型的预测能力,过程称为主动学习,要么尝试通过获取尽可能少的数据来定位全局最优值。

研究的过程

通过数据驱动的过程,底层ML模型因此在预测尚未合成或发现的材料特性方面变得更加准确,并且这些模型帮助预测的一些材料特性包括带隙形成能量、相稳定性、晶体结构等,通过使用人工智能,研究人员能够消除实验室合成、分子模拟或DFT计算的重大负担。

模拟数据注入优化加速数据驱动的材料发现

尽管这些ML模型比传统的DFT计算快几个数量级,但它们依赖于利基数据分布,对于特定用例,电子相关数据,以产生样本外预测精度这与决策所需的决议不相上下。通常对于新材料,ML预测的准确性可能不会接近建议具有所需特性的候选材料所需的分辨率。

所有这些问题都充分激发了一种更快的数据驱动方法,通过高度选择性的候选材料建议来获取更能代表目标问题的数据。贝叶斯优化是一种广泛用于此类数据驱动材料发现的方法,但它存在顺序执行瓶颈。

模拟数据注入优化加速数据驱动的材料发现

为了加速这一过程,可以利用批处理优化技术,其中可以一次选择材料的多个候选参数,通过多个分布式DFT计算或实验室实验进行验证和同化。专注于基于虚假数据注入方法的批量优化技术,并将其性能与其他基线进行比较。

这项工作采用了之前关于钙钛矿系列材料的顺序贝叶斯优化工作中的用例。卤化物钙钛矿为成分和结构调整提供了巨大的潜力,使发现用于能量转换的高性能材料成为可能。

模拟数据注入优化加速数据驱动的材料发现

杂化卤化物钙钛矿由位于其A位点的有机分子组成,在其B位的金属Ge、Pb或Sn,X位的I、Br 、Cl以及上述成分的混合物。在工作中,利用甲基铵卤化铅作为钙钛矿族的基线,因为它具有合适的带隙且易于合成。

Tao等人提供了关于钙钛矿系列材料的各种ML模型的完整列表。来预测带隙、形成能、可成形性和稳定性等特性。分析基于DFT计算来确定混合的焓,以预测混合钙钛矿的相稳定性,表明两种稳定的杂化钙钛矿化合物混合形成均匀固溶体的可能性有多大。

模拟数据注入优化加速数据驱动的材料发现

材料发现钙钛矿用例

材料的设计和发现通常是多目标标准,需要优化以产生同时具有更好的转化率、稳定性和其他特定领域特性的结构。钙钛矿用于太阳能电池,因为它们属于薄膜太阳能电池家族,在利基应用市场中具有良好的前景。

钙钛矿吸光层的优化围绕着寻找合适的金属离子、卤化物和阳离子组成,以实现良好的功率转换性能,同时确保长时间的电池稳定性。

模拟数据注入优化加速数据驱动的材料发现

这种优化标准非常适合我们的用例,因为我们可以限制某些已知的金属离子、卤化物和阳离子,并主要探索这些替代品跨越的配置空间。在用例中,将替代品限制为乙基卤化铅。

限制这些替代品简化了寻找甲基铵和乙基铵浓度及其相应取向的问题,这些取向产生与最低混合焓相对应的更稳定的构型有利于形成均匀的固溶体,不易分离成母体单阳离子甲基铵和乙基铵化合物。

模拟数据注入优化加速数据驱动的材料发现

此类材料的优化通常通过DFT和动力学计算进行,这被认为是实验室合成的一种更快、更便宜的替代方法。然而DFT计算仍然比ML预测更耗时。

对于在具有48个CPU的单个节点上运行的现代HPC上的甲基铵卤化铅的2×2×2超晶胞尺寸的单次DFT计算,使用PBE函数完成一次VASP计算需要35到70分钟。

模拟数据注入优化加速数据驱动的材料发现

假设在单个配置上运行DFT需要1小时的CPU时间,那么所有配置所需的时间将需要几千年。这样的成本需要一种更有原则的方法来从搜索空间中采样,通常用于材料发现的两种主要方法。

人在环路方法

典型的人在回路中的方法依赖于专家的知识或直觉以及可选的一些科学模型来指导潜在候选材料的探索和开发。并从专家基于一些科学模型或数据的先验知识开始,然后利用这些知识为DFT计算提出合适的候选成分。

模拟数据注入优化加速数据驱动的材料发现

对计算结果进行统计或定性分析,可以证明或反驳专家的假设。基于观察,专家通过认知或通过模型更新他的假设以建议下一个候选材料。就领域的“认知学习”而言,这种人在环中的方法可能是好的。

正如Park等人所指出的那样。这可能会导致增加专家的诱导偏见,这可能会限制他探索其他可能提供信息的配置。Peng等人介绍了人在回路中的固有认知偏差的局限性及其与以机器为中心的材料设计的比较。

模拟数据注入优化加速数据驱动的材料发现

涵盖基于模型的系统、基于描述符的系统、数据驱动方法,包括主动学习、贝叶斯优化和逆向设计。典型的人在回路中的方法受到专家可用性的要求以及归因于从数据中获取知识、执行分析和为进一步行动建立新假设的认知延迟的影响。

数据驱动方法

数据驱动的方法能够以更有原则的方式搜索最佳或合适的材料配置。然而,它们依赖于数据采集模型的质量。有几种优化方法可用于搜索某些黑盒函数的最优值。可以将它们分为顺序或并行方法。

模拟数据注入优化加速数据驱动的材料发现

贝叶斯优化、强化学习和马尔可夫链蒙特卡洛算法是顺序优化的几个例子,而粒子群优化、模拟退火和蚁群优化是批量的例子。大多数数据驱动方法结合使用伪随机技术以及探索和开发策略来定位全局最佳值。

根据这些数据驱动方法的性质,要么利用所有数据来确定下一个评估候选者,要么利用迄今为止获取的数据中的最佳值来计算下一个候选者候选评估,例如PSO的某些变体或仅使用当前数据点,例如Markov-Chain-Monte-Carlo算法。每一种都有其优点和缺点。

模拟数据注入优化加速数据驱动的材料发现

与数据无关的方法要么随机获取新的数据点,要么彻底扫描搜索空间。如果运行实验或DFT计算以获取新数据的成本很高,这通常会带来挑战,从而导致完全依赖与数据无关的方法来获得全局最佳值是不切实际的。

在优化数据收集过程的各种数据驱动方法中,我们重点关注粒子群优化、模拟退火、遗传算法和贝叶斯优化,因为它们广泛应用于计算材料科学,适合在HPC的并行节点中运行。

模拟数据注入优化加速数据驱动的材料发现

使用预测器而不是运行实际实验的好处是获得快速而浅显的初始建议。此建议生成过程相对较快,另一种实现批量建议的方法是基于获取函数的局部惩罚。这反过来会在之后受到惩罚参数建议被采纳。这种方法的缺点是采集函数应该是多模态的。

不是一次运行单个DFT计算,而是运行k-DFT计算以最大限度地利用高性能计算环境中的计算资源。该方法改编自Kriging believer's启发式,并附加了一个贪心算法以频率为unbias搜索方向。

模拟数据注入优化加速数据驱动的材料发现

对每种方法进行了25次试验,以获得平均性能并降低由于优化方法的随机种子而引入的任何异常值。指示每个DFT计算的CPU开始和结束时间的数据的计算配置文件以及相应的值显示。

对于每次试验,DFT计算的开始时间和结束时间由矩形条表示,其高度对应于输出值,S-BO 的条不重叠表示顺序执行。青色虚线表示试验的最佳值的时间。注意到作业调度程序在执行周期之间暂停了某些试验。

模拟数据注入优化加速数据驱动的材料发现

这在大多数FDI-BO试验中都可以看到。这意味着单纯的CPU时间不适合用来比较各个轨迹。这是为我们的ROP和AF性能指标指标使用批处理周期的动机之一。

总结

观察到SBO和RS预计比FDI-BO和TOPK-BO需要更长的批处理周期来执行。与SBO和RS实例相比,FDI-BO和TOPK-BO的示例实例以较低的批处理周期结束抽样预算。这些还描述了寻找稳定结构所需的负担程度,因为大多数建议都高于-1meV离子阈值。

模拟数据注入优化加速数据驱动的材料发现

FDI-BO和TOPK-BO提供的加速在收敛曲线中也很明显,只记录了迄今为止在相应批处理周期获得的最佳值。许多SBO实例需要超过20个批处理周期才能收敛到相应的最佳值,而RS的几个实例需要超过40个批处理周期。

最佳值的质量与其他方法不相上下,从而阻止其完全依赖搜索过程。试验中表现最好的第21个批次循环时为6.99meV。

模拟数据注入优化加速数据驱动的材料发现

所有优化方法的25次试验的平均最佳值约为−3±0.2。考虑到实验设置中的限制,随机抽样方法的平均表现几乎与SBO方法一样好。没有一个随机抽样试验达到低-4meV,并且它以相对较高的执行成本运行,这在实际情况下可能不可行。

这表明仅最佳值的平均值不足以区分哪种优化方法具有成本效益的性能指标,表明需要提供决定性的性能指标来解决加速和收敛到最佳值和阈值的问题。

模拟数据注入优化加速数据驱动的材料发现

参考文献

Abatal M, Ruiz-Salvador AR, Hernández NC (2020) 一种基于 DFT 的模拟退火方法,用于优化沸石骨架系统中的全局能量:在钠沸石、菱沸石和斜发沸石中的应用。微孔介孔材料 294:109885

Abolhasani M, Kumacheva E (2023) 化学和材料科学领域自动驾驶实验室的兴起。Nat Synth 30:1-10

Blöchl PE (1994) 投影仪增强波方法。物理 Rev B 50(24):17953

Chakraborti N (2004) 材料设计和加工中的遗传算法。Int Mater Rev 49(3–4):246–260

Chang C, Lee Y, Wu S (1990) 使用广义模拟退火法优化薄膜多层设计。选择快报 15(11):595–597

继续阅读