An Embarrassingly Simple Approach to Enhance Transformer Performance in Genomic Selection for Crop Breeding

2024年05月15日
  • 简介
    基因组选择(GS)作为重要的作物育种策略,在增加粮食生产和解决全球饥饿危机方面发挥着关键作用。目前,GS的主要方法围绕采用统计方法进行预测。然而,统计方法通常存在两个主要限制:强大的统计先验和线性假设。最近的一个趋势是通过深度学习捕捉标记之间的非线性关系。然而,由于作物数据集通常是具有有限样本的长序列,深度学习模型的鲁棒性,尤其是Transformer,仍然是一个挑战。在这项工作中,为了释放注意机制在所关注任务中的未开发潜力,我们提出了一个简单而有效的基于Transformer的框架,可以使整个序列进行端到端的训练。通过对rice3k和wheat3k数据集的实验,我们展示了,通过简单的技巧如k-mer标记化和随机掩蔽,Transformer可以在GS任务上实现整体优越的性能,胜过经典方法。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:本论文试图通过提出一种基于Transformer的框架,解决基因组选择(GS)中存在的统计方法先验强和线性假设的限制,以及深度学习模型在长序列数据集上的鲁棒性问题。
  • 关键思路
    关键思路:本论文提出的基于Transformer的框架能够通过k-mer标记化和随机掩蔽等简单技巧,实现对整个序列的端到端训练,从而捕捉标记之间的非线性关系,进而在GS任务中取得优异表现。
  • 其它亮点
    其他亮点:本论文在rice3k和wheat3k数据集上进行了实验,展示了基于Transformer的框架相对于经典方法的优越性能。此外,该论文使用的技巧简单易实现,且开源代码可用。这项工作为基于Transformer的GS方法提供了新思路,并且有望在农业生产中发挥实际作用。
  • 相关研究
    相关研究:目前,基于深度学习的GS方法已经成为研究热点。此外,一些研究也尝试使用其他神经网络结构来解决GS问题,如卷积神经网络和循环神经网络。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问