本文探讨了一种简单的扩展扩散基于整流流变压缩器的文本到音乐生成方法,称为FluxMusic。一般来说,我们通过在先进的Flux模型中进行设计,并将其转换为mel频谱的潜在VAE空间。它首先对双重文本-音乐流应用一系列独立的注意力,然后通过堆叠的单音乐流进行去噪补丁预测。我们使用多个预训练的文本编码器来充分捕捉标题语义信息以及推理灵活性。在此过程中,粗略的文本信息与时间步骤嵌入相结合,用于调制机制,而细粒度的文本细节则与音乐补丁序列连接作为输入。通过深入研究,我们证明了具有优化架构的整流流训练明显优于已建立的扩散方法,这一点可以从各种自动指标和人类偏好评估中得到证明。我们的实验数据、代码和模型权重可在以下网址中公开获取:\url{https://github.com/feizc/FluxMusic}。