Evaluating Text-to-Image Synthesis: Survey and Taxonomy of Image Quality Metrics

2024年03月18日
  • 简介
    最近,通过将语言和视觉基础模型相结合,文本转图像合成取得了重大进展,导致了可用工具的大量增加和对该领域的更多关注。进行文本到图像合成时,一个核心目标是确保文本和图像之间的内容是对齐的。因此,存在许多旨在模拟人类判断的评估指标。然而,由于评估非常微妙,因此往往不清楚评估文本到图像合成系统时应该使用哪个指标。在这项工作中,我们提供了现有文本到图像评估指标的全面概述。根据我们的发现,我们提出了一种新的分类这些指标的分类法。我们的分类法基于这样一个假设:存在两个主要的质量标准,即组合性和普适性,理想情况下与人类偏好相对应。最终,我们为从事文本到图像评估的从业人员制定了指南,讨论了评估机制的开放挑战,并揭示了当前指标的局限性。
  • 图表
  • 解决问题
    论文旨在提供一个全面的文本到图像合成评估指标概述,并提出一种新的分类方法,以帮助从业者更好地评估这些系统的质量。
  • 关键思路
    论文提出了一种基于构成和普适性两个质量标准的分类方法,以更好地评估文本到图像合成系统的质量。
  • 其它亮点
    论文对现有的文本到图像合成评估指标进行了全面的概述,并提出了一种新的分类方法。论文还讨论了评估机制的开放性挑战和当前指标的局限性。
  • 相关研究
    最近的相关研究包括:《Generative Adversarial Text-to-Image Synthesis: A Review》、《Text-to-Image Synthesis: A Survey》、《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论