- 简介近年来,文本到图像生成模型的发展取得了显著进展。评估生成模型的质量是开发过程中的一个重要步骤。不幸的是,评估过程可能会消耗大量的计算资源,使得需要定期评估模型性能(例如,监控训练进度)变得不切实际。因此,我们寻求通过选择代表性的文本-图像数据集子集来提高评估效率。我们系统地研究了设计选择,包括选择标准(纹理特征或基于图像的度量)和选择粒度(提示级别或集合级别)。我们发现,先前关于训练数据子集选择的研究成果不能推广到这个问题,并提出了FlashEval,这是一种针对评估数据选择量身定制的迭代搜索算法。我们在COCO和DiffusionDB数据集上演示了FlashEval在排名扩散模型方面的有效性,包括架构、量化级别和采样器时间表等各种配置。我们搜索的50个项目子集在看不见的模型上的COCO注释方面,可以实现与随机抽样的500个项目子集相当的评估质量,实现10倍的评估加速。我们发布了这些常用数据集的压缩子集,以帮助促进扩散算法的设计和评估,并将FlashEval作为一种工具开源,以压缩未来的数据集,可在https://github.com/thu-nics/FlashEval上访问。
-
- 图表
- 解决问题本文旨在提高文本到图像生成模型的评估效率,通过选择代表性的子集来减少评估所需的计算资源。
- 关键思路本文提出了一种名为FlashEval的迭代搜索算法,旨在解决评估数据选择的问题。该算法经过实验证明,在COCO和DiffusionDB数据集上,所选的50个子集与随机选取的500个子集相比,能够实现相当的评估质量,并且具有10倍的评估加速度。
- 其它亮点本文系统地研究了设计选择,包括选择标准(文本特征或基于图像的度量)和选择粒度(提示级别或集合级别)。作者还发布了这些常用数据集的压缩子集,以帮助促进扩散算法的设计和评估,并开源了FlashEval作为未来数据集压缩的工具。
- 最近在这个领域中,还有一些相关的研究。例如,Efficient Data Subset Selection for Training Large-Scale Text-to-Image Models和Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流