大多数微生物基因组尚未培养,微生物基因组或环境序列中鉴定的大多数蛋白质无法进行功能注释。因此,当前描述微生物系统的计算方法依赖于不完整的参考数据库,这些参考数据库无法充分捕捉微生物生命树的功能多样性,从而限制了科学家对生物序列的高级特征进行建模的能力。

罗格斯大学的研究人员展示了 LookGlass,这是一种深度学习模型,它编码短 DNA 读数的上下文感知、功能和进化相关的表示,可以区分不同功能、同源性和环境来源的读数。

该团队证明了 LookGlass 通过迁移学习进行微调以执行一系列不同任务的能力:识别新的氧化还原酶、预测酶的最佳温度以及识别 DNA 序列片段的阅读框。LookGlass 可以对其他未知和未注释的序列进行功能相关的表示,从而揭示主导地球生命的微生物暗物质。

该研究以「Deep learning of a bacterial and archaeal universal language of life enables transfer learning and illuminates microbial dark matter」为题,于 2022 年 5 月 11 日发布在《Nature Communications》。

论文链接:https://www.nature.com/articles/s41467-022-30070-8

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除