FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models

向作者提问

NEW

简介

近年来，文本到图像生成模型的发展取得了显著进展。评估生成模型的质量是开发过程中的一个重要步骤。不幸的是，评估过程可能会消耗大量的计算资源，使得需要定期评估模型性能（例如，监控训练进度）变得不切实际。因此，我们寻求通过选择代表性的文本-图像数据集子集来提高评估效率。我们系统地研究了设计选择，包括选择标准（纹理特征或基于图像的度量）和选择粒度（提示级别或集合级别）。我们发现，先前关于训练数据子集选择的研究成果不能推广到这个问题，并提出了FlashEval，这是一种针对评估数据选择量身定制的迭代搜索算法。我们在COCO和DiffusionDB数据集上演示了FlashEval在排名扩散模型方面的有效性，包括架构、量化级别和采样器时间表等各种配置。我们搜索的50个项目子集在看不见的模型上的COCO注释方面，可以实现与随机抽样的500个项目子集相当的评估质量，实现10倍的评估加速。我们发布了这些常用数据集的压缩子集，以帮助促进扩散算法的设计和评估，并将FlashEval作为一种工具开源，以压缩未来的数据集，可在https://github.com/thu-nics/FlashEval上访问。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提高文本到图像生成模型的评估效率，通过选择代表性的子集来减少评估所需的计算资源。
关键思路

本文提出了一种名为FlashEval的迭代搜索算法，旨在解决评估数据选择的问题。该算法经过实验证明，在COCO和DiffusionDB数据集上，所选的50个子集与随机选取的500个子集相比，能够实现相当的评估质量，并且具有10倍的评估加速度。
其它亮点

本文系统地研究了设计选择，包括选择标准（文本特征或基于图像的度量）和选择粒度（提示级别或集合级别）。作者还发布了这些常用数据集的压缩子集，以帮助促进扩散算法的设计和评估，并开源了FlashEval作为未来数据集压缩的工具。
相关研究

最近在这个领域中，还有一些相关的研究。例如，Efficient Data Subset Selection for Training Large-Scale Text-to-Image Models和Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问