WelQrate: Defining the Gold Standard in Small Molecule Drug Discovery Benchmarking

2024年11月14日
  • 简介
    虽然深度学习已经革新了计算机辅助药物发现,但人工智能社区主要集中在模型创新上,而对建立最佳基准测试实践的关注较少。我们认为,如果没有健全的模型评估框架,人工智能社区的努力将无法充分发挥其潜力,从而减缓创新向实际药物发现的进展和转化。因此,在本文中,我们力求为小分子药物发现的基准测试建立一个新的黄金标准——WelQrate。具体而言,我们的贡献有三个方面:WelQrate 数据集集合——我们介绍了一个精心策划的包含9个数据集的集合,涵盖了5个治疗靶标类别。由药物发现专家设计的分层策划管道不仅超越了初级高通量筛选,还通过利用额外的确认性和对照筛选以及严格的领域驱动预处理(如泛分析干扰化合物(PAINS)过滤)来确保数据集中的高质量数据;WelQrate 评估框架——我们提出了一种标准化的模型评估框架,考虑了高质量数据集、特征化、三维构象生成、评估指标和数据分割,为进行实际虚拟筛选的药物发现专家提供了可靠的基准测试;基准测试——我们通过使用WelQrate数据集集合探讨不同模型、数据集质量、特征化方法和数据分割策略对结果的影响,评估了模型性能。总之,我们建议采用我们提出的WelQrate作为小分子药物发现基准测试的黄金标准。WelQrate数据集集合、策划代码和实验脚本均在WelQrate.org上公开提供。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决人工智能在小分子药物发现中的模型评估框架不足的问题。尽管深度学习已经极大地推动了计算机辅助药物发现,但AI社区主要关注模型创新,而忽视了建立最佳基准测试实践。这是一个需要系统性改进的问题。
  • 关键思路
    论文提出了一个新的黄金标准——WelQrate,用于小分子药物发现的基准测试。其关键思路包括:1) 构建高质量的数据集集合;2) 设计标准化的模型评估框架;3) 通过多种研究问题来评估模型性能。这些思路不仅提高了数据质量,还为模型评估提供了可靠的标准。
  • 其它亮点
    1) 数据集:WelQrate包含了9个精心策划的数据集,覆盖5个治疗目标类别,经过多层次的筛选和预处理,确保数据质量。2) 评估框架:提出了一套标准化的评估方法,包括高质量数据集、特征化、3D构象生成、评估指标和数据分割策略。3) 实验设计:通过多个研究问题评估不同模型、数据集质量、特征化方法和数据分割策略的影响。4) 开源资源:所有数据集、策划代码和实验脚本均公开提供,可在WelQrate.org获取。
  • 相关研究
    近年来,许多研究致力于提高药物发现中的AI模型性能。例如,《MoleculeNet: A Benchmark for Molecular Machine Learning》提出了一个分子机器学习的基准测试平台;《Deep Learning for Drug Discovery: Methods and Applications》综述了深度学习在药物发现中的方法和应用;《Graph Neural Networks for Molecular Property Prediction》探讨了图神经网络在分子性质预测中的应用。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问