The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA

2024年05月02日
  • 简介
    这项研究介绍了一个系统性的框架,用于比较大型语言模型(LLMs)在各种化学信息学任务中进行微调的有效性。采用统一的训练方法,我们评估了三个知名模型——RoBERTa、BART和LLaMA——它们使用SMILES作为通用的分子表示格式来预测分子属性的能力。我们的比较分析涉及预训练这些模型的18种配置,包括不同的参数大小和数据集规模,然后在DeepChem的六个基准任务上进行微调。我们保持模型之间一致的训练环境,以确保可靠的比较。这种方法使我们能够评估模型类型、大小和训练数据集大小对模型性能的影响。具体而言,我们发现基于LLaMA的模型通常提供最低的验证损失,表明它们在任务和规模适应性方面具有优越性。然而,我们观察到绝对验证损失并不是模型性能的决定性指标——这与先前的研究相矛盾——至少对于微调任务而言,模型大小才是关键因素。通过严格的复制和验证,涉及多个训练和微调周期,我们的研究不仅勾勒出了每种模型类型的优点和局限性,而且为选择最适合特定化学信息学应用程序的LLM提供了强大的方法。这项研究强调了在药物发现和相关领域中部署人工智能时考虑模型架构和数据集特征的重要性,为更明智和有效地利用人工智能铺平了道路。
  • 图表
  • 解决问题
    比较不同大型语言模型在化学信息学任务中的微调效果,以选择最适合特定应用的模型。
  • 关键思路
    使用统一的训练方法,对RoBERTa、BART和LLaMA等三种大型语言模型进行18种配置的预训练,然后在DeepChem的六个基准任务上进行微调,通过比较模型类型、大小和训练数据集大小对模型性能的影响,发现LLaMA模型通常具有最低的验证损失,但绝对验证损失并不是模型性能的决定性指标,模型大小也至关重要。
  • 其它亮点
    论文提供了一种可靠的方法,用于选择最适合特定化学信息学应用的大型语言模型,并强调考虑模型架构和数据集特征对于在药物发现等领域中使用人工智能进行分子属性预测的重要性。实验设计严谨,使用了Simplified Molecular Input Line Entry System (SMILES)作为分子表示格式,并开源了代码。
  • 相关研究
    相关研究包括:1)使用不同的大型语言模型进行化学信息学任务的比较研究;2)基于深度学习的分子属性预测方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论