天天看点

IJCAI | 用于端到端分子性质预测的几何transformer

IJCAI | 用于端到端分子性质预测的几何transformer

今天给大家讲一篇2022年在IJCAI 2022上发表的一种基于transformer架构来进行分子性质预测的一篇文章,作者提出的方法与常规方法不同,并不简单只捕捉化合物的序列信息,此外还能够捕获分子的几何形状。通过一个分子几何结构的编码和一个自注意力机制来修改门控位置编码器,并进一步提出了一种分子数据的增强方案来避免过拟合。该方法不包含来自量子化学的领域知识,并且优于目前最先进的机器学习方法。

研究背景

由于使用密度泛函理论(DFT)或量子化学等方法来估计化合物的性质非常耗时,近几年应用机器学习方法通过输入原子的类型和空间位置来以端到端的方式预测化合物的性质,主要原因是一个分子的基态性质仅仅是原子间距离和核电荷数决定的。由于原子元素之间的距离越大,相互作用就越低,因此作者在原来的端到端的架构上引入一个自适应的位置编码器,并让模型学习了原子间的几何嵌入,同时保持分子的刚性变换和排列的不变性。

模型设计流程

2.1模型结构

作者提出了类似transformer架构MAT的模型,首先将输入序列嵌入到一个高维空间中,并对每个元素进行位置嵌入,然后再经过自注意模块和前馈层来传播这些嵌入表示。

MAT是通过对成对距离矩阵进行施加注意力机制,不过在原子交互的信息捕捉上并不完善,如图1所示,而作者将注意力机制放在位置编码层面,这样可以更好地学习到原子的空间邻接矩阵(即相互作用信息)。

IJCAI | 用于端到端分子性质预测的几何transformer

图 1 geometric transformer的架构图

2.2 几何表示方法

基于几何的位置编码:由于在二维表征中,分子的嵌入是基于原子的类型,那么相似的原子无法区分,原始transformer的位置编码模块的目的是学习序列信息的嵌入表示。作者引入成对的原子间距离矩阵来给每个原子带来位置信息来固定分子的大小,如图2所示,在没有引入任何几何信息输入的情况下,初始嵌入并不能区分相同类型的原子,而加入了几何形状的信息使得模型可以学习分子的几何形状,从而能够较好的预测分子的性质。

IJCAI | 用于端到端分子性质预测的几何transformer

图 2 引入空间距离编码对于分子性质预测的表现

2.3 分子增强方法

Transformer模型参数量较大,并且容易过拟合。因此添加dropout层来避免该问题,此外,作者进行数据增强来减少过拟合,由于修改一个原子类型或其空间位置对分子性质的影响好坏无从得知,因此基于距离相关性假设,作者通过创建一个新的分子系统来获得新的数据样本。如图3所示,首先将s1进行刚体变换,将s1和s2合并得到一个新的体系,并且根据原子间的距离信息可以很好地区分两个状态,从而对s1和s2的目标性质进行预测。

IJCAI | 用于端到端分子性质预测的几何transformer

图 3 分子增强策略

实验结果

3.1 消融实验

作者进行了消融研究来比较了不同的自注意力模块的影响。如图4左图所示,基准方法为MAT架构,该方法考虑了原子间的注意力信息,此外还有在此基础上加入不同层的原子间距离度量信息,对自注意力进行加权求和的方法以及作者的方法。图4右图可知,在进行数据增强和不进行的时候,相较于不增强的方式验证集的损失要低得多,体现出更好的泛化性能。

IJCAI | 用于端到端分子性质预测的几何transformer

图 4 消融实验结果展示

结论

作者提出了一种新的transformer结构和分子预测的方法。该模型基于成对的距离来有效地表示分子内的交互作用,不需要任何对潜在的物理模型的假设或涉及复杂的几何先验。模型通过几何自注意力模块可以学习分子图的几何形状和连通性,并引入了分子数据增强方法,可以提升模型的泛化性并且加速收敛。未来可以考虑引入更多的数据集进行预训练来提升性质预测的下游任务。

参考文献

  1. Contreras-Garcia, J. et al. NCIPLOT: A program for plotting non-covalent interaction regions. J. Chem. Teory Comput. 7, 625–632. https://doi.org/10.1021/ct100641a (2011).

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

原创内容未经授权,禁止转载至其他平台。有问题可发邮件至[email protected]

继续阅读