NatureLM: Deciphering the Language of Nature for Scientific Discovery

2025年02月11日
  • 简介
    基础模型已经革新了自然语言处理和人工智能领域,显著提升了机器理解和生成人类语言的能力。受这些基础模型成功的启发,研究人员为各个科学领域开发了专门的基础模型,包括小分子、材料、蛋白质、DNA 和 RNA。然而,这些模型通常是独立训练的,缺乏跨不同科学领域的整合能力。认识到这些领域内的实体都可以表示为序列,这些序列共同构成了“自然的语言”,我们引入了自然语言模型(简称 NatureLM),这是一种基于序列的科学基础模型,旨在促进科学研究。 NatureLM 使用来自多个科学领域的数据进行预训练,提供了一个统一且多功能的模型,能够实现多种应用,包括:(i) 使用文本指令生成和优化小分子、蛋白质、RNA 和材料;(ii) 跨领域生成/设计,例如从蛋白质到分子或从蛋白质到 RNA 的生成;以及 (iii) 在 SMILES 到 IUPAC 转换和 USPTO-50k 数据集上的逆合成分析等任务中达到最先进的性能。NatureLM 为各种科学任务提供了一种有前景的通用方法,包括药物发现(命中生成/优化、ADMET 优化、合成)、新型材料设计以及治疗性蛋白质或核酸的开发。我们开发了不同规模的 NatureLM 模型(参数量分别为 10 亿、80 亿和 467 亿),并观察到随着模型规模的增加,性能有明显的提升。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图构建一个能够跨多个科学领域(如小分子、材料、蛋白质、DNA和RNA)进行理解和生成的统一模型。这是一个新问题,因为现有的基础模型通常是为特定领域单独训练的,缺乏跨领域的集成能力。
  • 关键思路
    关键思路是引入Nature Language Model (NatureLM),这是一个基于序列的科学基础模型,通过预训练来自多个科学领域(如化学、生物学、材料科学等)的数据,实现了跨领域的统一模型。相比现有研究,NatureLM不仅可以在单一领域内执行任务,还可以进行跨域生成和优化,例如从蛋白质序列生成小分子或RNA序列。
  • 其它亮点
    论文展示了NatureLM在多个任务上的卓越性能,包括SMILES-to-IUPAC翻译、逆合成分析(retrosynthesis)等,并且模型规模越大,性能提升越明显。此外,NatureLM支持多种应用,如药物发现、新材料设计和治疗性蛋白质或核酸的开发。实验使用了多种数据集,如USPTO-50k,并提供了不同参数规模的模型版本。代码和模型已经开源,方便后续研究。
  • 相关研究
    最近的相关研究包括:1. 基础模型在自然语言处理中的应用,如BERT和GPT系列;2. 针对特定科学领域的基础模型,如ESM(蛋白质)、Mat2Vec(材料);3. 跨领域学习的研究,如多模态学习。相关论文标题有《Protein Representation Learning Using Transformers》、《MaterialsBERT: A Pre-trained Model for Materials Science》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问