新材料的发现可以显著影响地球上人类的生活质量,并使其更加可持续。此外,新材料可以在技术进步中发挥关键作用,并推动医疗保健和能源等行业的创新。然而,新材料发现的探索涉及解析材料的广阔化学空间。探索这个广阔的化学领域以识别和合成具有理想特性的材料是一项巨大的挑战。考虑到化学空间的规模巨大,开发能够有效访问这个空间的先进计算方法非常重要。能够准确预测材料特性的计算方法尤其可以用于新材料开发。准确的预测可以发现具有特定应用所需特性的新材料,并减少与新材料开发相关的时间和成本。本论文研究了利用机器学习 (ML) 模型作为材料特性预测和发现的更有效的计算工具的潜力。
传统上,密度泛函理论 (DFT) 模拟等计算方法已用于高通量筛选和材料特性的快速预测。计算能力的进步使得 DFT 模拟得以大规模使用,但由于这些方法的计算需求,解析整个化学空间并预测所有可能材料的属性实际上是不可能的。机器学习 (ML) 等数据驱动方法可以学习数据中的模式,可以成为 DFT 模拟的可行替代方案。一般来说,ML 模型学习材料表示,可以利用这些表示来预测材料属性,而计算成本与 DFT 相比只是很小的一部分。因此,这些模型可以用作筛选工具,在巨大的化学空间中识别有前途的新型材料,然后可以通过实验或 DFT 模拟进一步验证。
本论文探讨了用于材料属性预测的各种 ML 范式,包括图神经网络、自监督表示学习、结构无关表示学习的预训练策略和大语言模型。这项工作的主要目的是展示机器学习模型在准确预测材料特性方面的潜力,并最终通过应用机器学习来促进新材料的发现。
论文题目:Machine Learning for Material Property Prediction and Analysis
作者:Rishikesh Magar
类型:2023年博士论文
学校:Cornell University(美国康奈尔大学)
下载链接:
链接: https://pan.baidu.com/s/1A9D817Ne7vuCNTrfr0Kw1A?pwd=bz57
硕博论文汇总:
链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5
OGCNN 框架概述。OGCNN 模型可分为四个模块,即输入、编码器-解码器、图卷积和输出模块。
FeTi 合金的 OFM 表示。蓝色和红色原子分别为 Fe 和 Ti。插图显示中心 Fe 原子的 Voronoi 多面体形成截角八面体。还显示了 Fe 和 Ti 原子的 1D 二元向量。
Crystal Twins (CT) 框架概述。我们提出了两种基于 Barlow Twins 损失和 SimSiamese 损失函数的 SSL 预训练方法。CT 框架将结构文件 (CIF) 作为输入,然后增强结构以创建两个不同的增强实例。
A.) 在 CTBarlow 中,每个实例都传递给 CGCNN 图编码器,然后由投影仪生成嵌入。预训练目标旨在最大化两个嵌入之间的互相关性。
B.) 在 CTSimSiam 中,每个实例都通过相同的 CGCNN 编码器分支来生成嵌入。一个分支在编码器后有一个投影仪 MLP 头,另一个分支有停止梯度操作。预训练目标是最大化嵌入之间的相似性。
C.) 为了创建增强实例,这项工作中使用了三种增强技术:随机扰动、原子掩码和边缘掩码。
D.) 在预训练阶段,我们使用 SSL 进行训练。在微调阶段,预训练的权重与训练用于预测材料属性的编码器(CGCNN)共享。
使用 t-SNE 可视化钙钛矿数据集的嵌入空间。t-SNE 图上的每个点都根据晶体系统的形成能进行着色。A.) 嵌入的 t-SNE 图由 CGCNN 模型生成 B.) 嵌入的 t-SNE 图由 CTBarlow 模型的图形编码器经过微调后生成。
所有提出的预训练策略的框架。我们使用 Roost 编码器来证明预训练策略对材料特性预测任务的有效性。我们提出了三种策略:1.) 自监督学习 2.) 指纹学习和 3.) 多模态学习。使用这些策略,我们对 Roost 编码器进行预训练,并在 Matbench 套件中的不同数据集上对模型进行微调。使用此类预训练策略,我们能够展示下游任务的改进。
Roost 模型利用化学计量公式作为输入,例如 SrTiO3,来创建材料的图形表示。该图演示了专门针对节点 O 的消息传递,所有节点的节点更新过程都是相同的。Roost 中的消息传递框架由三个关键组件组成。首先,为图中的每个边计算未归一化的标量系数。然后在消息聚合步骤中使用软注意对这些系数进行归一化,从而允许聚合来自所有连接节点的消息。最后,在更新步骤中,以残差方式更新节点表示。
我们为 Roost 编码器开发了一个基于自监督学习的框架。我们使用 Barlow Twins 框架对 Roost 模型进行预训练。创建两个不同的增强并将其输入到 Roost 编码器。预训练的目标是将经验互相关矩阵推向单位矩阵。
在指纹学习策略中,我们使用 Roost 编码器来预测 Magpie 指纹。使用这种策略使我们的框架能够从固定长度描述符中捕获特征,从而帮助提高下游预测性能。
在多模态学习策略中,我们使用 Roost 编码器来预测来自 CT 编码器的基于结构的嵌入。使用这种策略使我们的框架能够从基于结构的嵌入中捕获特征,从而有助于提高下游预测性能。
(a) MOFormer 模型的流程。MOF 的 MOFid(以 qmof-2521623 为例)是模型的输入。MOFid 被转换为标记序列,然后嵌入并应用位置编码。然后将序列输入到多个 Transformer 编码器层中。第一个标记的学习到的嵌入将用作 MLP 回归头的输入,用于下游预测任务。
(b) 显示每个 Transformer 编码器层细节的示意图。序列的嵌入经过多头缩放点积注意层,然后经过 MLP。注意层和 MLP 都采用残差连接和层规范化。
(c) 具有 CGCNN 和 MOFormer 的多模态自监督学习框架。相同 MOF 的 3D 结构和 MOFid 分别输入到 CGCNN 和 MOFormer 中进行表示学习。每个模型后面的 MLP 头将表示投影到嵌入(ZA 和 ZB)中。然后使用嵌入构建互相关矩阵。应用 Barlow Twins 损失来优化互相关矩阵,使其尽可能接近单位矩阵。
a.) 晶体材料的示意图。图中的中心原子用紫色表示。相邻原子用绿色表示。中心原子和相邻原子之间的边缘用红色标记。b.) 原子掩蔽策略,被掩蔽的原子用黑色表示。c.) 边缘掩蔽策略,被掩蔽的边缘用黑色表示。
SSL 预训练和微调框架。在这项工作中,我们使用自监督学习来预训练 CGCNN 模型和 MOFormer。然后在下游任务的微调过程中共享预训练的权重。使用这种技术有助于我们提高 CGCNN 和 MOFormer 的性能。
微信群 公众号


内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢