Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

2024年04月25日
  • 简介
    虽然文本到图像(T2I)生成模型已经变得普遍,但它们不一定生成与给定提示相符的图像。以前的工作通过提出度量标准、基准和模板来评估T2I对齐,但这些组件的质量并没有系统地得到衡量。人类评定的提示集通常很小,评定的可靠性——从而用于比较模型的提示集——也没有得到评估。我们通过进行广泛的研究来解决这个问题,评估自动评估指标和人类模板。我们提供了三个主要贡献:(1)我们引入了一个全面的基于技能的基准,可以区分不同人类模板下的模型。这个基于技能的基准将提示分成子技能,允许从业者不仅找出哪些技能具有挑战性,而且找出一个技能在什么复杂程度下变得具有挑战性。(2)我们收集了四个模板和四个T2I模型的人类评分,总共超过10万个注释。这使我们能够了解差异是由于提示中的内在歧义还是由于度量标准和模型质量的差异造成的。(3)最后,我们引入了一种新的基于QA的自动评估指标,它与我们的新数据集、不同的人类模板和TIFA160的人类评分相关性更好。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决text-to-image生成模型(T2I)生成的图像与给定提示不一致的问题,同时评估T2I对齐的质量。此外,论文还试图解决当前评估T2I对齐质量的方法存在的问题,例如评估指标和可靠性不足等。
  • 关键思路
    论文提出了一个基于技能的全面基准,可以根据不同的人类模板来区分模型。该基准将提示分为子技能,使从业者不仅可以确定哪些技能具有挑战性,而且可以确定何种复杂度水平的技能具有挑战性。此外,论文还提出了一种新的QA-based自动评估指标,与现有指标相比,在新数据集上与人类评分更相关。
  • 其它亮点
    论文收集了超过100K的人类评分,包括四个模板和四个T2I模型,以帮助理解评估指标和模型质量的差异。实验结果表明,新的QA-based自动评估指标在不同的人类模板和TIFA160上都比现有指标更相关。此外,论文还开发了一个基于技能的基准,可以帮助从业者更好地了解T2I模型的性能。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,有一些研究关注评估图像生成模型的质量,例如FID和IS等指标。还有一些研究关注如何提高T2I模型的性能,例如使用GAN和强化学习等技术。相关的研究论文包括:“A Style-Based Generator Architecture for Generative Adversarial Networks”和“Learning to Paint with Model-Based Deep Reinforcement Learning”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问