Dirichlet Flow Matching with Applications to DNA Sequence Design

2024年02月08日
  • 简介
    离散扩散或流模型可以比自回归模型实现更快、更可控的序列生成。我们表明,朴素线性流匹配在单纯形上是不足以实现这一目标的,因为它在训练目标中存在不连续性和进一步的病态。为了克服这个问题,我们基于狄利克雷分布的混合物作为概率路径,开发了单纯形上的狄利克雷流匹配。在这个框架下,我们推导了混合物得分和流的向量场之间的联系,从而允许分类器和无分类器的指导。此外,我们提供了精简的狄利克雷流匹配,它能够实现一步序列生成,性能损失最小,相对于自回归模型,速度提高了$O(L)$。在复杂的DNA序列生成任务中,我们展示了优于所有基线的分布度量和实现所生成序列的期望设计目标的卓越性能。最后,我们展示了无分类器指导方法如何改进无条件生成,有效地生成满足设计目标的DNA。代码可在https://github.com/HannesStark/dirichlet-flow-matching中获得。
  • 图表
  • 解决问题
    本论文旨在解决离散扩散或流模型在序列生成方面的应用问题,提出了基于混合狄利克雷分布的狄利克雷流匹配方法,以提高序列生成的速度和可控性。
  • 关键思路
    论文提出了狄利克雷流匹配方法,通过混合狄利克雷分布作为概率路径,在简单六面体上实现流的匹配,从而实现更快速、更可控的序列生成。
  • 其它亮点
    论文提出的狄利克雷流匹配方法在DNA序列生成任务中表现出了优异的性能,超过了所有基线模型,同时在生成满足设计目标的DNA序列方面也表现出了较好的效果。此外,论文提供了开源代码,并且使用了较为复杂的数据集进行实验。
  • 相关研究
    近期的相关研究包括使用神经网络生成序列的自回归模型和生成对抗网络模型等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论