A Benchmark Dataset for Multimodal Prediction of Enzymatic Function Coupling DNA Sequences and Natural Language

2024年07月21日
  • 简介
    预测基因功能是生物学中的一个基本挑战。许多深度学习模型已被提出来嵌入DNA序列并预测其酶功能,利用公共数据库中将DNA序列与酶功能标签相关联的信息。然而,许多生物学功能的科学知识并没有在这些分类标签中表示出来,而是在机制、反应和酶行为的非结构化文本描述中捕获。这些描述通常与DNA序列一起在生物数据库中捕获,尽管以非结构化方式。预测酶功能的深度学习模型可能会受益于将这种多模态数据编码生物功能的科学知识纳入其中。然而,目前没有为机器学习算法设计的数据集来利用这种多模态信息。在这里,我们提出了一个新的数据集和基准套件,可以在基因DNA序列和基因功能的自然语言描述上探索和开发大型多模态神经网络模型。我们提供了无监督和有监督任务的基准性能,表明这种建模目标的困难程度,同时展示了相对于仅使用DNA序列的功能预测中多模态数据类型的潜在好处。我们的数据集可在以下网址找到:https://hoarfrost-lab.github.io/BioTalk/。
  • 图表
  • 解决问题
    论文旨在解决从DNA序列和自然语言描述中预测基因功能的问题,并且提出了一种新的多模态数据集和基准测试套件。
  • 关键思路
    论文的关键思路是结合DNA序列和自然语言描述的多模态数据,利用深度学习模型预测基因功能,并在此基础上构建一个新的数据集和基准测试套件。
  • 其它亮点
    论文提出了一个新的多模态数据集和基准测试套件,用于探索和开发大型多模态神经网络模型。论文在无监督和监督任务的基准测试上展示了基线性能,并证明了相比仅使用DNA序列,结合多模态数据可以提高预测基因功能的效果。数据集已经开源。
  • 相关研究
    最近的相关研究包括使用深度学习模型预测基因功能的工作,以及使用多模态数据进行生物信息学研究的工作。例如,"Learning Representations of DNA Methylation and Gene Expression Data Using Graph Convolutional Networks"和"Multi-modal Deep Learning for Gene Function Prediction in Yeast"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论