BioT5+: Towards Generalized Biological Understanding with IUPAC Integration and Multi-task Tuning

2024年02月27日
  • 简介
    最近计算生物学的研究趋势越来越集中于文本和生物实体建模的整合,特别是在分子和蛋白质的背景下。然而,以BioT5为代表的以前的努力在跨越不同任务方面面临挑战,并且缺乏对分子结构的细致理解,特别是在它们的文本表示(例如IUPAC)中。本文介绍了BioT5+,它是BioT5框架的扩展,旨在增强生物研究和药物发现。BioT5+包括几个新特性:整合IUPAC名称以理解分子、包括来自bioRxiv和PubChem等来源的广泛生物文本和分子数据、多任务指令调整以实现跨任务的普适性以及一种新颖的数字标记化技术,以改进数字数据的处理。这些增强功能使BioT5+能够弥合分子表示和它们的文本描述之间的差距,提供更全面的生物实体理解,并大大改善生物文本和生物序列的基础推理。该模型经过预训练和微调,包括3种类型的问题(分类、回归、生成)、15种任务和21个基准数据集的大量实验,表现出卓越的性能和最先进的结果。BioT5+在捕捉生物数据中复杂关系方面表现出色,从而在生物信息学和计算生物学方面做出了重要贡献。我们的代码可在\url{https://github.com/QizhiPei/BioT5}上获得。
  • 作者讲解
  • 图表
  • 解决问题
    BioT5+试图在计算生物学中整合文本和生物实体建模,以提高对分子和蛋白质的理解。
  • 关键思路
    BioT5+增加了多种新特性,包括IUPAC名称的集成,来自bioRxiv和PubChem等源的广泛生物文本和分子数据的包含,多任务指令调整以实现跨任务的一般性,以及用于处理数字数据的新型数值标记技术。这些增强功能使BioT5+能够弥合分子表示和它们的文本描述之间的差距,提供更全面的生物实体理解,并在生物文本和生物序列的基础推理方面大大提高了性能。
  • 其它亮点
    BioT5+通过大量实验进行了预训练和微调,包括3种类型的问题(分类、回归、生成)、15种任务和21个基准数据集,表现出卓越的性能和最先进的结果。BioT5+在捕捉生物数据中的复杂关系方面表现出色,因此对生物信息学和计算生物学做出了重大贡献。代码已经开源。
  • 相关研究
    最近的相关研究包括BioT5等先前的工作,以及其他计算生物学中的文本和实体建模的研究,例如“Integrating Text and Structure Data for Protein-Protein Interaction Extraction”和“Representation Learning for Drug Discovery with RetroSynthetic Data”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问