快速准确地预测分子特性,对于推进从材料科学到制药等领域的科学发现和应用具有重要意义。由于探索潜在选择的实验和模拟既耗时又昂贵,科学家们开始使用机器学习 (ML) 方法来帮助计算化学研究。但是,大多数 ML 模型只能利用已知或标记的数据。这使得准确预测新化合物的性质几乎是不可能的。
虽然标记的分子数据数量有限,但可行但未标记的数据数量正在迅速增长。
卡内基梅隆大学的研究人员思考他们是否可以利用这大量的未标记分子来建立ML模型,这种模型在属性预测方面比其他模型表现更好。他们最终开发了一个名为 MolCLR(Molecular Contrastive Learning of Representations with GNN) 的自我监督学习框架。MolCLR 通过利用大约 1000 万个未标记的分子数据,显著提高了 ML 模型的性能。
该研究结果以「Molecular contrastive learning of representations via graph neural networks」为题,于 2022 年 3 月 3 日发表在《Nature Machine Intelligence》上。
论文链接:https://www.nature.com/articles/s42256-022-00447-x
分子表征在新型化合物的设计中是基础和必不可少的。由于可能的稳定化合物的数量巨大,开发一种信息表示以概括整个化学空间可能具有挑战性。传统的分子表示,例如扩展连接指纹(ECFP),已成为计算化学中的标准工具。
近年来,随着机器学习方法的发展,数据驱动的分子表示学习及其应用,包括化学性质预测、化学建模和分子设计,越来越受到关注。
然而,学习这样的表示可能很困难。首先,分子信息很难完整地表示出来。其次,化学空间的大小是巨大的,这使任何分子表示都很难在可能的化合物中泛化。第三,分子学习任务的标记数据昂贵且远远不够。因此,大多数分子学习基准中的标签数量远远不够。在如此有限的数据上训练的机器学习模型很容易过度拟合,并且在与训练集不同的分子上表现不佳。
受益于可用分子数据的增长,自我监督/预训练的分子表示学习也得到了研究。
在这里,研究人员提出了 MolCLR(通过图神经网络进行表征的分子对比学习)来解决上述所有挑战。这是一种利用大量未标记数据(约 1000 万个独特分子)的自我监督学习框架。内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢