ImagenHub: Standardizing the evaluation of conditional image generation models

2023年10月02日
  • 简介
    最近,已经开发了大量的有条件图像生成和编辑模型,用于不同的下游任务,包括文本到图像生成、文本引导图像编辑、主题驱动图像生成、控制引导图像生成等。然而,我们观察到实验条件存在巨大的不一致性:数据集、推理和评估指标,这使得公正的比较变得困难。本文提出了ImagenHub,这是一个一站式库,用于标准化所有条件图像生成模型的推理和评估。首先,我们定义了七个重要任务,并为它们策划了高质量的评估数据集。其次,我们建立了一个统一的推理管道,以确保公平比较。第三,我们设计了两个人类评估指标,即语义一致性和感知质量,以及全面的评估指南来评估生成的图像。我们培训专家评估员根据提出的指标评估模型输出。我们的人类评估在76%的模型上实现了高的工人间一致性Krippendorff's alpha值高于0.4。我们全面评估了约30个模型,并观察到三个关键点:(1)除了文本引导图像生成和主题驱动图像生成外,现有模型的性能通常令人不满意,74%的模型的总体得分低于0.5。(2)我们审查了已发表论文的主张,并发现83%的主张成立,但有一些例外。(3)除了主题驱动图像生成外,现有的自动评估指标没有Spearman相关系数高于0.2。展望未来,我们将继续努力评估新发布的模型,并更新我们的排行榜,以跟踪条件图像生成的进展。
  • 解决问题
    标准化条件图像生成模型的推理和评估,以解决当前实验条件不一致的问题。
  • 关键思路
    提出了ImagenHub,一个一站式库,用于标准化条件图像生成模型的推理和评估。定义了七个突出任务,构建了统一的推理管道,设计了两个人类评估分数,即语义一致性和感知质量,并训练了专家评估员进行评估。
  • 其它亮点
    实验评估了约30个模型,发现现有模型的性能普遍不令人满意,除了文本引导的图像生成和主题驱动的图像生成外,74%的模型的总体得分低于0.5。研究还发现83%的已发表论文的声明成立,除了一些例外。提出的人类评估获得了较高的工人间一致性。将继续评估新发布的模型并更新排行榜。
  • 相关研究
    最近的相关研究包括:《Generative Adversarial Networks》、《Progressive Growing of GANs for Improved Quality, Stability, and Variation》、《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论