预训练蛋白质模型来学习有效的表征对预测 PPI 来说至关重要,目前大多数的蛋白预训练模型是基于序列的,采用自然语言处理中使用的语言模型来处理氨基酸序列。

PPI 问题和蛋白的结构与功能密切相关。然而,单独使用蛋白质序列很难描述蛋白质的结构和功能。

为了解决这个问题,百度借鉴自然语言处理和计算机视觉中的多模态学习,提出了一个包含三个模态:序列(Sequence)、结构(Structure)和功能(Function)的蛋白质多模态预训练模型 S2F。他们使用重原子点云的拓扑复合物来编码结构特征,这使得模型不仅可以学习骨架的结构信息,还可以学习侧链的结构信息。此外,此模型还结合了从文献或人工注释中提取的蛋白质功能描述的知识。

实验表明,S2F 学习的蛋白质嵌入在各种 PPI 任务中取得了良好的表现,包括跨物种 PPI、抗体-抗原亲和力预测、SARS-CoV-2 的抗体中和预测以及突变驱动的蛋白结合亲和力变化预测。

该工作即将在 PaddleHelix 开源,供大家使用。

项目链接:

https://github.com/PaddlePaddle/PaddleHelix

论文链接:

https://arxiv.org/abs/2112.04814

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除