AMPCliff: quantitative definition and benchmarking of activity cliffs in antimicrobial peptides

2024年04月15日
  • 简介
    活性悬崖(AC)是指一对相似分子因为微小的结构变化而表现出巨大的生化活性差异的现象。小分子的AC已经得到了广泛的研究,但是关于由规范氨基酸组成的肽中的AC现象的知识仍然有限。本研究介绍了一个定量定义和基准框架AMPCliff,用于研究由规范氨基酸组成的抗菌肽(AMPs)中的AC现象。对现有AMP数据集的全面分析揭示了AMPs中AC的显著普遍性。AMPCliff通过最小抑菌浓度(MIC)指标量化AMPs的活性,并将规范化的BLOSUM62相似度得分0.9定义为至少具有两倍MIC变化的对齐肽对的最小阈值。本研究建立了一个来自公开可用的AMP数据集GRAMPA中金黄色葡萄球菌的成对AMP基准数据集,并进行了严格的程序评估各种AMP AC预测模型,包括9种机器学习、4种深度学习算法、4种掩蔽语言模型和4种生成语言模型。我们的分析表明,这些模型能够检测AMP AC事件,而预先训练的蛋白质语言ESM2模型在评估中表现出优越的性能。考虑到ESM2只有33层,对于基准数据集上MIC值的回归任务,其预测性能仍有待进一步提高,其Spearman相关系数仅为0.50。源代码和额外资源可在https://www.healthinformaticslab.org/supp/或https://github.com/Kewei2023/AMPCliff-generation获取。
  • 图表
  • 解决问题
    本文旨在研究肽类中的活性悬崖现象,即结构上相似但生化活性差异较大的分子对。作者使用AMP数据集进行研究,并尝试建立一个量化定义和评估框架(AMPCliff)。
  • 关键思路
    本文提出了一个基于最小抑菌浓度(MIC)的活性量化方法,并使用规范化的BLOSUM62相似性分数作为判断两个肽类分子是否存在活性悬崖的阈值。作者评估了多种机器学习和深度学习算法,发现ESM2预训练模型的表现最好。
  • 其它亮点
    本文发现AMP中存在较多的活性悬崖现象,并建立了一个基准数据集用于评估模型性能。作者尝试了多种算法,并公开了代码和资源。
  • 相关研究
    在相关研究方面,最近的研究主要集中在肽类的设计和合成方面,例如“Design and Synthesis of Antimicrobial Peptides with Activity against Multidrug-Resistant Pseudomonas aeruginosa”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论