- 简介最近,许多有条件的图像生成和编辑模型已经被开发出来,以服务于不同的下游任务,包括文本到图像生成、文本引导图像编辑、主题驱动图像生成、控制引导图像生成等。然而,我们观察到实验条件存在巨大的不一致性:数据集、推理和评估指标——这使得公平比较变得困难。本文提出了ImagenHub,这是一个一站式库,用于标准化所有有条件图像生成模型的推理和评估。首先,我们定义了七个突出的任务,并为它们策划了高质量的评估数据集。其次,我们建立了一个统一的推理管道,以确保公平比较。第三,我们设计了两个人类评估得分,即语义一致性和感知质量,并提供全面的指南来评估生成的图像。我们训练专家评估员根据提出的指标评估模型的输出。我们的人类评估在76%的模型上获得了高的工作者间一致性的Krippendorff's alpha值,其值高于0.4。我们全面评估了约30个模型,并观察到三个关键点:(1)现有模型的性能通常不令人满意,除了文本引导图像生成和主题驱动图像生成外,74%的模型的总体得分低于0.5。 (2)我们检查了已发表论文的声明,并发现83%的声明成立,但有少数例外。 (3)除了主题驱动图像生成外,没有任何现有的自动指标具有Spearman相关性大于0.2。展望未来,我们将继续努力评估新发布的模型,并更新我们的排行榜,以跟踪有条件图像生成的进展。
- 图表
- 解决问题本论文旨在解决条件图像生成模型的实验条件不一致,难以进行公平比较的问题。作者提出了ImagenHub,一个一站式库,标准化了所有条件图像生成模型的推理和评估。
- 关键思路本论文的关键思路是:定义了七个突出的任务并为它们策划了高质量的评估数据集;构建了统一的推理管道以确保公平比较;设计了两个人类评估指标(语义一致性和感知质量)以及全面的评估指南。作者训练了专家评估员来根据提议的指标评估模型输出。
- 其它亮点本论文的亮点包括:人类评估获得了高的互工者一致性;对大约30个模型进行了全面评估并发现了三个关键的发现;提出了两个人类评估指标和全面的评估指南;更新了排行榜以跟踪条件图像生成领域的进展。
- 近期在这个领域中的相关研究包括:文本到图像生成、文本引导图像编辑、主题驱动图像生成、控制引导图像生成等。相关论文包括:《Generative Adversarial Text-to-Image Synthesis》、《Image Inpainting for Irregular Holes Using Partial Convolutions》、《A Style-Based Generator Architecture for Generative Adversarial Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢