本文给大家介绍的是丹麦技术大学健康技术系生物信息部的Henrik Nielsen 课题组发表在 nature biotechnology 上的文章 《SignalP 6.0 predicts all five types of signal peptides using protein language models》。在这篇文章中,作者提出了一个机器学习模型 SignalP 6.0,它可以预测全部 5 种信号肽类型且适用于宏基因组数据。

作者整理了一个含有信号肽的蛋白质序列数据集,并根据已知的信号肽类型属性定义了区域标记规则,如图 1 所示,5种信号肽共16421条细胞内序列和2615条跨膜序列(Sec/SPIII 和 Tat/SPII 的数据只有113和36条)。作者进行了三折交叉验证,在进行数据划分时,将同源序列划分在同一个数据区中,以便更精确地验证模型在未见序列上的表现。

内容中包含的图片若涉及版权问题,请及时与我们联系删除