Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

简介

随着生成型人工智能中的规模定律推动性能提升，也同时将这些模型的开发集中在具有大量计算资源的参与者中。针对文本到图像（T2I）生成模型，我们旨在通过展示大规模T2I扩散变换器模型的低成本训练来解决这一瓶颈。由于变压器的计算成本随着每个图像中补丁数量的增加而增加，因此我们建议在训练过程中随机屏蔽高达75％的图像补丁。我们提出了一种延迟屏蔽策略，使用补丁混合器对所有补丁进行预处理，然后进行屏蔽，从而显着减少了屏蔽的性能下降，使其比模型降级在减少计算成本方面更为优越。我们还结合了变换器架构的最新改进，例如使用专家混合层来提高性能，并进一步确定了在微预算训练中使用合成图像的关键好处。最后，我们仅使用3700万个公开可用的真实和合成图像，以仅1890美元的经济成本训练了一个11.6亿参数的稀疏变压器，在COCO数据集的零样本生成中实现了12.7 FID。值得注意的是，我们的模型在产生具有竞争力的FID和高质量生成的同时，产生的成本比稳定扩散模型低118倍，比当前的最先进方法低14倍，后者的成本为28,400美元。我们旨在发布我们的端到端训练流程，以进一步使微预算上的大规模扩散模型的训练民主化。
图表
解决问题

本论文试图通过降低计算成本，解决大规模文本到图像生成模型的开发集中在具备大量计算资源的人群的问题。
关键思路

论文提出了一种低成本的大规模文本到图像扩散变换器模型训练方法，其中通过在训练期间随机屏蔽高达75％的图像块，来降低变换器的计算成本。论文使用预处理的图像块混合器和专家混合层来提高性能，同时证明了使用合成图像进行微预算训练的关键优势。
其它亮点

论文使用了只有37M真实和合成图像的数据集，以经济成本1,890美元训练了一个1.16亿个参数的稀疏变换器，并在COCO数据集的零样本生成中实现了12.7 FID。与稳定扩散模型相比，本文的模型成本降低了118倍，与当前的最先进方法相比，成本降低了14倍。作者计划公开他们的端到端训练管道，以进一步推动大规模扩散模型在微预算上的民主化训练。
相关研究

最近的相关研究包括：《Generative Pretraining Transformer for Diverse Text-to-Image Synthesis》, 《Generative Adversarial Networks for Image Synthesis》, 《Large Scale GAN Training for High Fidelity Natural Image Synthesis》等。

Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

评论