- 简介我们介绍了OmniFlow,这是一种新型生成模型,专为任意到任意的生成任务设计,例如文本到图像、文本到音频和音频到图像合成。OmniFlow改进了用于文本到图像模型的修正流(RF)框架,以处理多种模态的联合分布。它在广泛的任务上超越了之前的任意到任意模型,如文本到图像和文本到音频合成。我们的工作提供了三个关键贡献:首先,我们将RF扩展到多模态设置,并引入了一种新的引导机制,使用户能够灵活地控制生成输出中不同模态之间的对齐。其次,我们提出了一种新颖的架构,扩展了Stable Diffusion 3的文本到图像MMDiT架构,实现了音频和文本生成。扩展模块可以高效地单独预训练,并与普通的文本到图像MMDiT合并进行微调。最后,我们对大规模音频和文本生成中的修正流变压器的设计选择进行了全面研究,为优化跨多种模态的性能提供了宝贵的见解。代码将可在https://github.com/jacklishufan/OmniFlows 获取。
- 图表
- 解决问题OmniFlow试图解决多模态生成任务中的任何到任何生成问题,如文本到图像、文本到音频和音频到图像合成。这是一个具有挑战性的问题,因为需要处理不同模态之间的复杂关系,并且在多种生成任务上达到高性能。
- 关键思路OmniFlow的关键思路是扩展现有的rectified flow (RF) 框架,使其能够处理多模态数据,并引入了一种新的引导机制,使用户能够灵活控制不同模态之间的对齐。此外,论文提出了一种新颖的架构,该架构在Stable Diffusion 3的MMDiT基础上进行了扩展,支持音频和文本生成。这些模块可以独立预训练,然后与基础模型合并进行微调,从而提高了效率。
- 其它亮点论文通过广泛的实验验证了OmniFlow在多种多模态生成任务上的优越性能。实验设计包括了多个基准数据集,如COCO、AudioSet等。此外,作者还提供了详细的消融研究,探讨了不同设计选择的影响。代码已开源,可在GitHub上获取,这为后续研究提供了便利。未来的研究可以进一步探索更多模态的融合,以及在更大规模数据集上的应用。
- 近期在多模态生成领域的一些相关研究包括:1) CLIP(Contrastive Language–Image Pretraining),通过对比学习方法实现了文本和图像的联合表示;2) DALL-E,提出了基于Transformer的文本到图像生成模型;3) AudioLDM,专注于文本到音频的生成任务。这些研究为OmniFlow的发展提供了重要的参考和借鉴。
沙发等你来抢
去评论
评论
沙发等你来抢