- 简介研究氨基酸序列中的蛋白质突变在生命科学中具有重要意义。蛋白质语言模型(PLMs)已在广泛的生物学应用中展现出强大的能力。然而,由于架构设计和缺乏监督,PLMs 对突变的建模仅限于隐式的进化可能性,这在实际研究中作为可解释和可工程化的工具是不令人满意的。为了解决这些问题,我们提出了 MutaPLM,这是一个利用蛋白质语言模型解释和导航蛋白质突变的统一框架。MutaPLM 引入了一个蛋白质差分网络,该网络在一个统一的特征空间内捕捉显式的蛋白质突变表示,并采用链式思维(CoT)策略的迁移学习管道,从生物医学文献中提取蛋白质突变知识。我们还构建了 MutaDescribe,这是第一个大规模的蛋白质突变数据集,包含丰富的文本注释,提供了跨模态的监督信号。通过全面的实验,我们证明 MutaPLM 在提供突变效应的人类可理解解释以及优先筛选具有理想特性的新突变方面表现出色。我们的代码、模型和数据已开源,可在 https://github.com/PharMolix/MutaPLM 获取。
- 图表
- 解决问题该论文旨在解决蛋白质语言模型(PLMs)在建模蛋白质突变时存在的隐式性和缺乏可解释性的问题,这些问题限制了PLMs作为现实世界研究中的可解释和可工程化工具的应用。
- 关键思路论文提出了MutaPLM框架,通过引入蛋白质差异网络来显式捕捉蛋白质突变表示,并利用链式思维(CoT)策略从生物医学文本中提取突变知识。这一方法不仅提高了模型的可解释性,还增强了其在实际应用中的实用性。
- 其它亮点论文构建了首个大规模带有丰富文本注释的蛋白质突变数据集MutaDescribe,为跨模态监督信号提供了支持。通过全面的实验,证明了MutaPLM在提供人类可理解的突变效应解释和优先选择具有理想特性的新突变方面的优越性能。所有代码、模型和数据均已开源。
- 近期相关研究包括:1.《Protein Mutagenesis with Deep Learning》探讨了深度学习在蛋白质突变预测中的应用;2.《Evolutionary Language Models for Protein Sequences》研究了进化语言模型在蛋白质序列建模中的作用;3.《Interpretable Protein Representation Learning》关注了蛋白质表示学习的可解释性。
沙发等你来抢
去评论
评论
沙发等你来抢