FLUX that Plays Music

简介

本文探讨了一种简单的扩展扩散基于整流流变压缩器的文本到音乐生成方法，称为FluxMusic。一般来说，我们通过在先进的Flux模型中进行设计，并将其转换为mel频谱的潜在VAE空间。它首先对双重文本-音乐流应用一系列独立的注意力，然后通过堆叠的单音乐流进行去噪补丁预测。我们使用多个预训练的文本编码器来充分捕捉标题语义信息以及推理灵活性。在此过程中，粗略的文本信息与时间步骤嵌入相结合，用于调制机制，而细粒度的文本细节则与音乐补丁序列连接作为输入。通过深入研究，我们证明了具有优化架构的整流流训练明显优于已建立的扩散方法，这一点可以从各种自动指标和人类偏好评估中得到证明。我们的实验数据、代码和模型权重可在以下网址中公开获取：\url{https://github.com/feizc/FluxMusic}。
图表
解决问题

本文旨在通过扩展基于扩散的修正流Transformer模型，提出一种名为FluxMusic的文本到音乐生成方法。它试图解决如何将文本转化为音乐的问题，并验证了该方法的有效性。
关键思路

FluxMusic模型将文本和音乐流分别输入到多个独立的注意力机制中，然后使用堆叠的单个音乐流进行去噪补丁预测。同时，利用粗略的文本信息和时间步嵌入在调制机制中，将细粒度的文本细节与音乐补丁序列相结合作为输入。通过优化的架构和修正流训练，FluxMusic模型在文本到音乐生成任务中表现出更好的性能。
其它亮点

本文通过实验研究表明，FluxMusic模型在文本到音乐生成任务中表现出更好的性能。论文提供了实验数据、代码和模型权重，并开源在GitHub上。值得关注的是，FluxMusic模型采用了多个预训练文本编码器，以捕捉语义信息和提高推理灵活性。此外，该模型还使用了修正流训练，这是一种新的训练方法。
相关研究

近期在文本到音乐生成领域的相关研究包括：1. Music Transformer；2. MuseNet；3. GPT-2-based Music Generation。

评论