- 简介多序列比对(MSA)在揭示蛋白质家族的进化轨迹中发挥着至关重要的作用。对于缺乏足够同源信息以构建高质量MSA的蛋白质序列,蛋白质结构预测的准确性通常会受到影响。虽然已经提出了各种方法来在这些条件下生成虚拟MSA,但它们在全面捕捉MSA内复杂的共同进化模式方面存在不足,或需要外部预测模型的指导。在这里,我们介绍了MSAGPT,一种新的方法,通过在低MSA区域进行MSA生成预训练来促进蛋白质结构预测。MSAGPT采用简单但有效的二维进化位置编码方案来模拟复杂的进化模式。在此基础上,其灵活的一维MSA解码框架促进了零或少量样本学习。此外,我们证明了利用AlphaFold2的反馈可以通过拒绝微调(RFT)和从AF2反馈的强化学习(RLAF)进一步增强模型容量。广泛的实验确认了MSAGPT在生成忠实的虚拟MSA以提高结构预测准确性方面的有效性。迁移学习能力也突显了其促进其他蛋白质任务的巨大潜力。
-
- 图表
- 解决问题本论文旨在解决在低MSA(Multiple Sequence Alignment)情况下,缺乏足够同源信息以构建高质量MSA的蛋白质序列的结构预测准确性问题。
- 关键思路MSAGPT是一种基于MSA生成预训练的新方法,采用简单而有效的二维进化位置编码方案来建模复杂的进化模式。其灵活的一维MSA解码框架有助于零或少量样本学习。此外,通过利用AlphaFold2的反馈,可以通过Rejective Fine tuning(RFT)和从AF2 Feedback(RLAF)的强化学习进一步增强模型能力。
- 其它亮点该论文的亮点包括:1. MSAGPT是一种新的方法,可在低MSA情况下提高蛋白质结构预测准确性。2. MSAGPT采用简单而有效的二维进化位置编码方案来建模复杂的进化模式。3. 通过利用AlphaFold2的反馈,可以通过RFT和RLAF进一步增强模型能力。4. 该论文的实验结果表明,MSAGPT可以生成忠实的虚拟MSA,从而提高结构预测的准确性。5. MSAGPT具有良好的迁移学习能力,也适用于其他蛋白质任务。
- 在这个领域中,最近的相关研究包括:1. AlphaFold2:通过深度学习进行蛋白质结构预测(Jumper等人,2021)。2. MSA Transformer:一种基于Transformer的神经网络模型,用于蛋白质序列的多序列对齐(Wang等人,2019)。3. PconsC4:一种基于深度学习的蛋白质模型评分函数(Michel等人,2020)。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流