Benchmarking Pretrained Molecular Embedding Models For Molecular Representation Learning

向作者提问

NEW

简介

预训练神经网络在化学和小分子药物设计领域已引起广泛关注。这些模型的嵌入表示被广泛用于分子属性预测、虚拟筛选以及分子化学中的小数据学习。本研究对迄今为止数量最多的此类模型进行了最全面的比较，共评估了25种模型在25个数据集上的表现。在公平比较的框架下，我们评估了涵盖多种模态、架构和预训练策略的模型。通过使用一种专门设计的分层贝叶斯统计检验模型，我们得出了一个令人意外的结果：几乎所有神经网络模型相较于基线ECFP分子指纹都没有明显提升，甚至完全没有提升。唯一表现出统计上显著优于其他模型的是CLAMP模型，而该模型本身也基于分子指纹。这些发现引发了我们对现有研究中评估严格性的担忧。我们讨论了可能的原因，提出了相应的解决方案，并给出了实用建议。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图验证当前广泛使用的预训练神经网络模型在化学和小分子药物设计中的表现是否真的优于传统方法（如ECFP分子指纹）。这是一个值得关注但尚未被系统评估的新问题，尤其是在已有大量研究依赖这些模型进行分子属性预测、虚拟筛选和小数据学习的情况下。
关键思路

论文提出了一种公平比较框架，对25种不同模态、架构和预训练策略的神经网络模型进行了迄今为止最全面的比较。使用专门设计的分层贝叶斯统计测试模型，评估模型性能是否显著优于传统分子指纹方法。
其它亮点

1. 实验覆盖25种模型和25个数据集，是目前最大规模的系统性比较研究 2. 几乎所有神经网络模型表现与ECFP基线相当或更差，仅CLAMP模型表现显著更好 3. 揭示了当前分子表示学习领域评估标准可能不够严谨的问题 4. 提出了改进模型评估和比较的实践建议 5. 强调了基于分子指纹的模型（如CLAMP）在性能上的竞争力
相关研究

1. Deep Learning for Molecular Representation and Property Prediction: A Review 2. MoleculeNet: A Benchmark for Molecular Machine Learning 3. Graph Neural Networks in Drug Discovery: Recent Advances and Challenges 4. Self-Supervised Learning of Molecular Representations for Drug Discovery 5. Benchmarking Pretrained Molecular Embeddings on Downstream Tasks

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问