【论文标题】DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise Annotations
【作者团队】Yuanfeng Ji, Lu Zhang, Jiaxiang Wu, Bingzhe Wu, Long-Kai Huang, Tingyang Xu, Yu Rong, Lanqing Li, Jie Ren, Ding Xue, Houtim Lai, Shaoyong Xu, Jing Feng, Wei Liu, Ping Luo, Shuigeng Zhou, Junzhou Huang, Peilin Zhao, Yatao Bian
【发表时间】2022/01/24
【机 构】腾讯、复旦、港大
【论文链接】https://arxiv.org/pdf/2201.09637v1.pdf
【资源链接】https://drugood.github.io
由于人工智能辅助药物发现(AIDD)有望使寻找新药的过程更快、更便宜、更高效,因此越来越受欢迎。尽管它在ADMET预测、虚拟筛选、蛋白质折叠和生成化学等许多领域得到了广泛的应用,但在现实世界的AIDD应用中不可避免的分布外(OOD)学习问题方面的探索却很少。
在这项工作中,本文提出了DrugOOD,一个系统的OOD数据集和人工智能辅助药物发现的基准,它带有一个开源的Python包,可以完全自动化数据流程和OOD基准测试过程。本文专注于AIDD中最关键的问题之一:药物靶点结合亲和力预测,这涉及到大分子(蛋白质靶点)和小分子(药物化合物)。与只提供固定的数据集相比,DrugOOD提供了自动数据集处理,具有用户友好的定制脚本、与生物化学知识相一致的丰富的领域注释、现实的噪声注释和最先进的OOD算法的严格的基准测试。由于分子数据经常被建模为使用图神经网络(GNN)骨架的不规则图,DrugOOD也可以作为一个有价值的测试平台,用于解决图OOD学习问题。广泛的实例研究表明,分布内实验和分布外实验之间存在明显的性能差距,这突出表明需要开发更好的方案,可以让AIDD在噪声下进行OOD泛化。
本文主要内容如下:
1. 自动数据集处理。本文提供了一个完全可定制的流程,用于从大规模生物测定网站ChEMBL中为人工智能辅助药物发现处理OOD数据集。
2. 丰富的领域注释。本文提出了各种方法来生成与生物化学领域知识相一致的特定领域。
3. 真实的噪声注释。本文根据测量置信度得分、"截断 "噪声等对现实世界的噪声进行注释,为现实世界噪声下的学习提供了宝贵的测试平台。
4. 严格的OOD基准测试。本文用不同的骨架对96个已实现的数据集实例进行六种SOTA OOD算法的基准测试,并深入了解AIDD噪声下的OOD学习。
DrugOOD为药物AI OOD研究提供了大规模、现实和多样化的数据集。具体来说,DrugOOD专注于领域泛化的问题,在这个问题上,本文对不相干的领域进行训练和测试模型,例如,在新的检测环境中的分子。左上图:基于ChEMBL数据库,本文提出了一个自动数据集策划器,用于灵活地定制OOD数据集。右上图。DrugOOD发布的实现了跨越不同领域转变的典范数据集。在每个数据集中,每个数据样本(x,y,d)都与一个领域注释d相关联。本文用背景色蓝色和绿色表示已见数据和未见的测试数据。底部。来自DrugOOD数据集的不同噪音水平的例子。DrugOOD根据几个标准识别并注释了三个噪声级别(从左到右:核心、精炼、一般),随着级别的提高,数据量增加,涉及更多的噪声源。
自动数据集处理的概述。本文主要实现了基于ChEMBL数据源的三个主要步骤:噪声过滤、不确定度处理和领域分割。本文内置了96个配置来生成处理的数据集,配置了两个任务、三个噪声水平、四个测量类型和五个领域。
DrugOOD基准的概述。DrugOOD为开发和评估AIDD的OOD泛化算法进行了全面的基准测试。在加载数据流程人生成的任何一个数据集后,用户可以灵活地组合不同类型的模块,包括算法、骨架等,以灵活、规范的方式开发OOD泛化算法。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢