Holistic Evaluation for Interleaved Text-and-Image Generation

2024年06月20日
  • 简介
    交错式文本与图像生成一直是一个引人入胜的研究方向,其中模型需要以任意顺序生成图像和文本片段。尽管交错生成方面出现了一些进展,但其评估的进展仍然严重滞后。现有的评估基准不支持任意交错的图像和文本作为输入和输出,并且它们仅涵盖有限数量的领域和用例。此外,当前的研究主要使用基于相似度的度量标准,这在评估开放式场景的质量方面存在缺陷。因此,我们引入了InterleavedBench,这是第一个专门为评估交错式文本与图像生成而精心策划的基准。InterleavedBench具有丰富的任务数组,以涵盖不同的实际用例。此外,我们提出了InterleavedEval,这是一种强大的无参考度量标准,由GPT-4o提供支持,以提供准确和可解释的评估。我们精心定义了InterleavedEval的五个基本评估方面,包括文本质量、感知质量、图像连贯性、文本-图像连贯性和有用性,以确保全面和精细的评估。通过广泛的实验和严格的人类评估,我们展示了我们的基准和度量可以有效地评估现有模型,并且与人类判断具有强相关性,超过了以前的基于参考的度量标准。我们还提供了大量的发现和见解,以促进未来交错生成及其评估的研究。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决交替生成图像和文本的评估问题,现有的评估基准不支持任意交替的图像和文本输入和输出,并且只涵盖了有限数量的领域和用例。
  • 关键思路
    本文提出了InterleavedBench评估基准和InterleavedEval评估指标,InterleavedBench包含多个任务以覆盖多样的实际用例,InterleavedEval采用GPT-4o提供准确和可解释的评估。
  • 其它亮点
    本文提供了一个全面的评估框架,包括文本质量、感知质量、图像连贯性、文本图像连贯性和帮助性等五个方面,可以有效地评估现有模型,并与人类判断具有强相关性。同时,本文提供了大量的实验发现和见解,有助于未来的研究。
  • 相关研究
    最近的相关研究包括:《A Survey on Evaluation Methods for Text-to-Image Generation》、《Text-to-Image Generation Grounded by Fine-Grained User Attention》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问