预测分子特性对于药物发现和材料设计等许多相关应用相当重要,这类任务通常需要来自化学和药理学等领域的专家付出巨大的努力。近年来,人们提出一系列基于机器学习的分子表示学习方法来加快这些任务的进程,并且在基于机器学习的分子表示学习领域取得了坚实的进展。一般来说,基于机器学习的分子表示学习任务旨在将分子嵌入到隐空间中的向量中,以此表征为基础再用于各种下游任务,例如靶点识别(target identification)、逆合成分析(retrosynthetic analysis)、虚拟筛选(virtual screening)等等。

然而,现有的分子表示学习方法主要基于一个假设:训练和测试的分子数据服从独立同分布(i.i.d.)。但现实世界中的分子数据的分布通常是不确定的,这就需要现有的分子表示学习能够有效地应对分布变化。

本文我们将介绍一项被 Thirty-sixth Conference on Neural Information Processing Systems (NeurIPS'22) 会议接收的新工作,我们于该工作中提出了一种名为 MoleOOD 的模型以解决上述问题,该工作有幸被选为 Spotlight presentation。

该工作的亮点总结如下:

  • 我们首次探索了不变性原理与分子领域知识结合的可能性,并提出了一种能够有效应对分布变化的通用分子表示学习框架叫做 MoleOOD
  • 该框架理论上可以使用任意现有的分子表示学习模型作为骨干模型以提升他们的泛化能力。此外,MoleOOD 能够对训练分子数据自行进行环境划分,并不依赖人为标注的环境标签,所以 MoleOOD 也极具实用性。
  • 通过在十个公开数据集上的实验,我们提出的 MoleOOD 的有效性也得到了充分验证。

 

论文链接:https://openreview.net/pdf?id=2nWUNTnFijm

内容中包含的图片若涉及版权问题,请及时与我们联系删除