- 简介大型语言模型在各种任务中的显著成功,推动研究界将其能力扩展到分子应用领域。然而,大多数分子语言模型采用基于适配器的架构,不平等地处理分子和文本模态,并缺乏分子模态的监督信号。为了解决这些问题,我们引入了UniMoT,一种采用基于分词器的统一分子-文本语言模型,该模型扩展了LLM的词汇表,加入了分子标记。具体而言,我们引入了一种基于向量量化驱动的分词器,该分词器包含一个Q-Former,以弥合分子和文本之间的模态差距。该分词器将分子转化为具有因果依赖性的分子标记序列,封装了高级分子和文本信息。配备了这个分词器,UniMoT可以在共享标记表示和自回归训练范式下统一分子和文本模态,使其能够将分子解释为外语并将其生成为文本。在四阶段的训练方案下,UniMoT成为一种多模态通才,能够执行分子到文本和文本到分子的任务。广泛的实验表明,UniMoT在广泛的分子理解和生成任务中实现了最先进的性能。
- 图表
- 解决问题本论文旨在解决分子应用中的大语言模型(LLMs)存在的问题,如不平等对待分子和文本模态以及缺乏分子模态的监督信号等。
- 关键思路本文提出了一种统一的分子-文本LLM,采用基于分词器的架构,将分子标记扩展到LLM的词汇表中,并引入了一个量化驱动的分词器来弥合分子和文本之间的模态差距。
- 其它亮点本文提出的UniMoT模型可以统一分子和文本模态,并在自回归训练范式下将分子解释为一种外语并将其生成为文本。UniMoT在各种分子理解和生成任务中均取得了最先进的性能。
- 最近的相关研究包括:1. MolBERT: A Pre-trained Language Model for Molecular Property Prediction. 2. SMILES-BERT: Large Scale Unsupervised Pre-Training for Molecular Property Prediction. 3. Graph-Bert: Only Attention is Needed for Learning Graph Representations.
沙发等你来抢
去评论
评论
沙发等你来抢