Towards Less Biased Data-driven Scoring with Deep Learning-Based End-to-end Database Search in Tandem Mass Spectrometry

2024年05月08日
  • 简介
    Peptide identification(肽段鉴定)在基于质谱的蛋白质组学中对于理解蛋白质的功能和动态至关重要。传统的数据库搜索方法虽然被广泛使用,但是依赖于启发式评分函数,必须引入统计估计以获得更高的鉴定率。在这里,我们介绍了DeepSearch,这是第一个基于深度学习的端到端数据库搜索方法,适用于串联质谱。DeepSearch利用了修改后的基于transformer的编码器-解码器架构,在对比学习框架下进行。与依赖于离子匹配的传统方法不同,DeepSearch采用数据驱动的方法来评分肽段谱图匹配。DeepSearch也是第一个能够以零样本方式对可变的翻译后修饰进行分析的深度学习方法。我们展示了DeepSearch的评分方案表现出较少的偏见,并且不需要任何统计估计。我们验证了DeepSearch在各种数据集中的准确性和鲁棒性,包括来自蛋白质组成不同的物种和富含修饰的数据集。DeepSearch为串联质谱中的数据库搜索方法带来了新的视角。
  • 图表
  • 解决问题
    DeepSearch试图解决质谱分析中肽段鉴定的问题,通过深度学习的方法提高鉴定率和准确性。
  • 关键思路
    DeepSearch采用了修改后的transformer-based编码器-解码器架构,并且在对比学习框架下进行数据驱动的评分方案,能够在零样本情况下对变量翻译后修饰进行建模。
  • 其它亮点
    DeepSearch的评分方案不需要引入任何统计估计,并且在不同数据集上的准确性和稳健性得到了验证。论文还开源了代码,供研究者使用。
  • 相关研究
    在这个领域中,一些相关的研究包括:"DeepNovo: A Deep Learning-Based Peptide de novo Sequencing Tool for Tandem Mass Spectrum","PDeep: Predicting MS/MS Spectra of Peptides with Deep Learning"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论