Smiles2Dock: an open large-scale multi-task dataset for ML-based molecular docking

2024年06月09日
  • 简介
    分子对接是药物发现中的关键组成部分,旨在预测小分子与靶蛋白之间的结合构象和亲和力。基于机器学习的对接最近成为一种突出的方法,在处理分子库的规模和复杂性方面超越了传统方法,如DOCK和AutoDock Vina。然而,用于训练和基准测试基于机器学习的对接算法的全面且易于使用的数据集仍然有限。我们介绍了Smiles2Dock,这是一个用于分子对接的开放式大规模多任务数据集。我们创建了一个框架,将P2Rank和AutoDock Vina结合起来,将来自ChEMBL数据库的170万个配体对接到15个AlphaFold蛋白质上,从而获得了超过2500万个蛋白质-配体结合得分。该数据集利用了广泛的高精度AlphaFold蛋白质模型,涵盖了多种生物相关化合物,并使研究人员能够基准测试所有主要的基于机器学习的对接方法,例如基于图形、Transformer和CNN的方法。我们还介绍了一种新颖的基于Transformer的架构,用于对接得分预测,并将其设置为我们数据集的初始基准。我们的数据集和代码公开可用,以支持开发用于分子对接的新型基于机器学习的方法,以推进这一领域的科学研究。
  • 图表
  • 解决问题
    构建一个全面的、易于使用的数据集,以用于训练和基准测试基于机器学习的分子对接算法。
  • 关键思路
    使用P2Rank和AutoDock Vina相结合的框架,对来自ChEMBL数据库的170万个配体针对15个AlphaFold蛋白质进行对接,得到了超过2500万个蛋白质-配体结合得分,从而构建了一个大规模的多任务数据集Smiles2Dock。
  • 其它亮点
    该数据集利用了高精度的AlphaFold蛋白质模型,包括了多样化的生物活性化合物,并允许研究人员基准测试所有主要的基于机器学习的分子对接方法,如图形、Transformer和CNN-based方法。此外,论文还介绍了一种新颖的基于Transformer的架构用于对接得分预测,并将其作为数据集的初始基准测试。数据集和代码都是公开的,以支持开发新的基于机器学习的分子对接方法,以推动该领域的科学研究。
  • 相关研究
    最近的相关研究包括:1. "Deep Learning for Drug Discovery: A Comprehensive Review of the Most Promising Artificial Intelligence Approaches in Drug Discovery"; 2. "Machine Learning in Drug Discovery and Development: Recent Advances and Future Prospects"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论