ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing

2024年02月26日
  • 简介
    大型语言模型(LLMs),包括GPT-x和LLaMA2,在多个自然语言处理(NLP)任务中取得了显著的表现。在蛋白质序列构成蛋白质语言的前提下,针对蛋白质语言处理(PLP)领域的Protein Large Language Models(ProLLMs)在de novo蛋白质序列生成方面表现出色。然而,目前为止,与NLP中的LLMs不同,没有任何ProLLM能够处理多个PLP任务。这促使我们描绘当前ProLLMs固有的限制:(i)缺乏自然语言能力,(ii)理解不足,(iii)高训练资源需求。为了解决这些挑战,我们引入了一个训练框架,将任何通用LLM转化为能够处理多个PLP任务的ProLLM。具体而言,我们的框架利用低秩适应并采用两阶段训练方法,其特点是通用性、低开销和可扩展性。通过在此框架下进行训练,我们提出了ProLLaMA模型,这是已知的第一个能够同时处理多个PLP任务的ProLLM。实验表明,ProLLaMA在无条件蛋白质序列生成任务中取得了最先进的结果。在可控蛋白质序列生成任务中,ProLLaMA可以设计具有所需功能的新型蛋白质。在蛋白质性质预测任务中,ProLLaMA在许多类别上实现了近乎100%的准确性。后两个任务是其他ProLLMs无法达到的。代码可在\url{https://github.com/Lyu6PosHao/ProLLaMA}上获得。
  • 图表
  • 解决问题
    本文旨在解决当前ProLLMs在处理蛋白质语言处理任务时的局限性,即缺乏自然语言能力、指令理解不足、训练资源需求高等问题。
  • 关键思路
    文章提出了一个训练框架,通过低秩适应和两阶段训练方法,将任何通用LLM转化为能够处理多个PLP任务的ProLLM。该框架具有普适性、低开销和可扩展性。
  • 其它亮点
    本文提出的ProLLaMA模型是首个能够同时处理多个PLP任务的ProLLM,可以在无条件蛋白质序列生成任务中实现最先进的结果,在可控蛋白质序列生成任务中可以设计具有所需功能的新型蛋白质,在蛋白质属性预测任务中,ProLLaMA在许多类别上实现了近乎100%的准确性。代码已开源。
  • 相关研究
    最近的相关研究包括:使用ProteinGAN生成蛋白质序列,使用Transformer模型预测蛋白质属性,使用自编码器生成蛋白质序列等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论