AdaNovo: Adaptive \emph{De Novo} Peptide Sequencing with Conditional Mutual Information

2024年03月09日
  • 简介
    串联质谱技术在推动蛋白质组学方面发挥了关键作用,使得生物样本中的蛋白质组成得以分析。尽管已经开发了各种深度学习方法来识别质谱中观察到的氨基酸序列(肽),但在\emph{de novo}肽段测序方面仍存在挑战。首先,之前的方法难以识别具有翻译后修饰(PTMs)的氨基酸,因为它们在训练数据中的频率比规范氨基酸低,从而进一步降低了肽水平的识别精度。其次,质谱中的各种噪声和缺失峰降低了训练数据(肽-谱匹配,PSMs)的可靠性。为了解决这些挑战,我们提出了AdaNovo,这是一个新颖的框架,它计算谱和每个氨基酸/肽之间的条件互信息(CMI),使用CMI进行自适应模型训练。广泛的实验表明,AdaNovo在9个物种的基准测试中表现出最先进的性能,其中训练集中的肽几乎完全不同于测试集中的肽。此外,AdaNovo在识别具有PTMs的氨基酸方面表现出色,并且对数据噪声具有鲁棒性。附加材料包含官方代码。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:AdaNovo试图解决蛋白质组学中的de novo肽段测序问题,包括鉴定具有PTMs的氨基酸以及噪声和缺失峰的问题。
  • 关键思路
    关键思路:AdaNovo使用条件互信息(CMI)来自适应地训练模型,以鉴定具有PTMs的氨基酸和克服数据噪声和缺失峰的问题。
  • 其它亮点
    其他亮点:AdaNovo在9个物种的基准测试中表现出色,即使训练集中的肽段几乎与测试集不重叠,也能达到最先进的性能水平。此外,AdaNovo在鉴定具有PTMs的氨基酸方面表现出色,并且对数据噪声具有鲁棒性。研究使用了开源代码。
  • 相关研究
    相关研究:在此领域的相关研究中,最近的论文包括:"DeepNovo-DIA: Boosting DIA Identification with Deep Learning","Deep learning in proteomics","De novo peptide sequencing via deep learning"等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问