A Survey on Quality Metrics for Text-to-Image Models

向作者提问

NEW

简介

最近的基于人工智能的文本到图像模型不仅在生成逼真的图像方面表现出色，还为设计师提供了越来越细致的图像内容控制。因此，这些方法在计算机图形学研究界引起了越来越多的关注，该领域历来致力于传统的渲染技术，这些技术在生成逼真的图像时提供了对场景参数（如对象、材料和光照）的精确控制。虽然传统上通过诸如SSIM或PSNR等已经成熟的图像质量度量来评估渲染图像的质量，但与渲染相比，文本到图像模型的独特挑战在于它们交织了场景和渲染参数的控制，因此需要开发新的图像质量度量。因此，在本次调查中，我们全面概述了现有的文本到图像质量度量，解决了它们的细微差别以及需要与人类偏好保持一致的需要。根据我们的发现，我们提出了一个新的分类法来对这些指标进行分类，该分类法基于这样一个假设：存在两个主要的质量标准，即组合性和普遍性，这些标准理想情况下应与人类偏好相匹配。最终，我们提出了给从业者进行文本到图像评估的指导方针，讨论了评估机制的开放性挑战，并揭示了当前度量标准的局限性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提出一种新的图像质量评估方法，以解决文本到图像生成模型的独特挑战，即如何在场景和渲染参数的控制下生成高质量的图像，并且需要与人类偏好相一致。
关键思路

提出了一种新的分类方法，将现有的文本到图像质量评估方法分为两类：组合性和普适性。并且强调了评估过程中需要考虑到人类偏好。
其它亮点

论文提供了对现有文本到图像质量评估方法的全面综述，并且提出了一种新的分类方法。实验结果表明，新的分类方法能够更好地与人类偏好相一致。论文还讨论了评估过程中的挑战和限制，并且提出了未来研究的方向。
相关研究

最近的相关研究包括：《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》、《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问