NEW

NatureLM: Deciphering the Language of Nature for Scientific Discovery

Yingce Xia ,

Peiran Jin ,

Shufang Xie ,

Liang He ,

Chuan Cao ,

Renqian Luo ,

Guoqing Liu ,

Yue Wang ,

Zequn Liu ,

Yuan-Jyue Chen ,

Zekun Guo ,

Yeqi Bai ,

Pan Deng ,

Yaosen Min ,

Ziheng Lu ,

Hongxia Hao ,

Han Yang ,

Jielan Li ,

Chang Liu ,

Jia Zhang ,

Jianwei Zhu ,

Kehan Wu ,

Wei Zhang ,

Kaiyuan Gao ,

Qizhi Pei ,

Qian Wang ,

Xixian Liu ,

Yanting Li ,

Houtian Zhu ,

Yeqing Lu ,

Mingqian Ma ,

Zun Wang ,

Tian Xie ,

Krzysztof Maziarz ,

Marwin Segler ,

Zhao Yang ,

Zilong Chen ,

Yu Shi ,

Shuxin Zheng ,

Lijun Wu ,

Chen Hu ,

Peggy Dai ,

Tie-Yan Liu ,

Haiguang Liu ,

Tao Qin

2025年02月11日

简介

基础模型已经革新了自然语言处理和人工智能领域，显著提升了机器理解和生成人类语言的能力。受这些基础模型成功的启发，研究人员为各个科学领域开发了专门的基础模型，包括小分子、材料、蛋白质、DNA 和 RNA。然而，这些模型通常是独立训练的，缺乏跨不同科学领域的整合能力。认识到这些领域内的实体都可以表示为序列，这些序列共同构成了“自然的语言”，我们引入了自然语言模型（简称 NatureLM），这是一种基于序列的科学基础模型，旨在促进科学研究。 NatureLM 使用来自多个科学领域的数据进行预训练，提供了一个统一且多功能的模型，能够实现多种应用，包括：(i) 使用文本指令生成和优化小分子、蛋白质、RNA 和材料；(ii) 跨领域生成/设计，例如从蛋白质到分子或从蛋白质到 RNA 的生成；以及 (iii) 在 SMILES 到 IUPAC 转换和 USPTO-50k 数据集上的逆合成分析等任务中达到最先进的性能。NatureLM 为各种科学任务提供了一种有前景的通用方法，包括药物发现（命中生成/优化、ADMET 优化、合成）、新型材料设计以及治疗性蛋白质或核酸的开发。我们开发了不同规模的 NatureLM 模型（参数量分别为 10 亿、80 亿和 467 亿），并观察到随着模型规模的增加，性能有明显的提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图构建一个能够跨多个科学领域（如小分子、材料、蛋白质、DNA和RNA）进行理解和生成的统一模型。这是一个新问题，因为现有的基础模型通常是为特定领域单独训练的，缺乏跨领域的集成能力。
关键思路

关键思路是引入Nature Language Model (NatureLM)，这是一个基于序列的科学基础模型，通过预训练来自多个科学领域（如化学、生物学、材料科学等）的数据，实现了跨领域的统一模型。相比现有研究，NatureLM不仅可以在单一领域内执行任务，还可以进行跨域生成和优化，例如从蛋白质序列生成小分子或RNA序列。
其它亮点

论文展示了NatureLM在多个任务上的卓越性能，包括SMILES-to-IUPAC翻译、逆合成分析（retrosynthesis）等，并且模型规模越大，性能提升越明显。此外，NatureLM支持多种应用，如药物发现、新材料设计和治疗性蛋白质或核酸的开发。实验使用了多种数据集，如USPTO-50k，并提供了不同参数规模的模型版本。代码和模型已经开源，方便后续研究。
相关研究

最近的相关研究包括：1. 基础模型在自然语言处理中的应用，如BERT和GPT系列；2. 针对特定科学领域的基础模型，如ESM（蛋白质）、Mat2Vec（材料）；3. 跨领域学习的研究，如多模态学习。相关论文标题有《Protein Representation Learning Using Transformers》、《MaterialsBERT: A Pre-trained Model for Materials Science》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问