Protriever: End-to-End Differentiable Protein Homology Search for Fitness Prediction

2025年06月10日
  • 简介
    检索同源蛋白序列对于包括适应性预测、蛋白设计、结构建模以及蛋白-蛋白相互作用在内的广泛蛋白质建模任务至关重要。传统的流程依赖于两步方法:首先通过多序列比对(MSA)检索同源序列,然后基于一个或多个这些比对训练模型。然而,基于MSA的检索计算成本高,难以处理高度分歧的序列或复杂的插入和删除模式,并且与下游建模目标独立运作。我们提出了Protriever,这是一种端到端可微分框架,能够同时学习检索相关同源序列并针对目标任务进行训练。在应用于蛋白质适应性预测时,Protriever相比依赖基于MSA同源序列检索的序列模型表现出最先进水平的性能,同时通过高效的向量搜索速度快两个数量级。Protriever既不依赖特定架构,也不受限于特定任务,能够在推理时灵活适应不同的检索策略和蛋白质数据库——为以比对为中心的方法提供了一种可扩展的替代方案。
  • 图表
  • 解决问题
    该论文试图解决传统基于多序列比对(MSA)的蛋白质同源序列检索方法存在的计算成本高、难以处理高度发散序列或复杂插入/删除模式的问题。此外,传统方法与下游建模目标解耦,可能导致次优性能。这并非一个全新的问题,但提出了一种更高效且任务驱动的解决方案。
  • 关键思路
    论文引入了Protriever,一种端到端可微分框架,能够同时学习检索相关同源序列并针对目标任务进行训练。相比传统的两步法(先MSA再建模),Protriever通过高效的向量搜索技术显著加速了同源序列检索过程,并且其设计与架构和任务无关,能够在推理时灵活适应不同的检索策略和蛋白质数据库。
  • 其它亮点
    1. Protriever在蛋白质适应性预测任务中达到了当前最优性能,同时速度提升了两个数量级。 2. 论文展示了Protriever在多种任务中的灵活性,包括蛋白质结构建模和蛋白-蛋白相互作用预测。 3. 实验设计涵盖了多个公开数据集,验证了模型在不同场景下的泛化能力。 4. 代码已开源,便于社区复现和进一步研究。 5. 提出了未来可能的研究方向,例如如何结合更大规模的蛋白质数据库以提升性能。
  • 相关研究
    最近的相关研究包括: 1. "MSA Transformer" - 探索了从MSA中提取上下文信息以改进蛋白质表示学习。 2. "ESM: Exploring the Limits of Language Modeling for Proteins" - 使用大规模语言模型来捕捉蛋白质序列特征。 3. "AlphaFold and AlphaFold-Multimer" - 利用深度学习技术在蛋白质结构预测领域取得了突破。 4. "ProtTrans" - 将自然语言处理中的预训练技术迁移到蛋白质序列分析。 这些研究大多依赖于MSA或预训练模型,而Protriever通过任务驱动的同源序列检索提供了一个新的视角。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论