Holistic Evaluation for Interleaved Text-and-Image Generation

简介

交错式文本与图像生成一直是一个引人入胜的研究方向，其中模型需要以任意顺序生成图像和文本片段。尽管交错生成方面出现了一些进展，但其评估的进展仍然严重滞后。现有的评估基准不支持任意交错的图像和文本作为输入和输出，并且它们仅涵盖有限数量的领域和用例。此外，当前的研究主要使用基于相似度的度量标准，这在评估开放式场景的质量方面存在缺陷。因此，我们引入了InterleavedBench，这是第一个专门为评估交错式文本与图像生成而精心策划的基准。InterleavedBench具有丰富的任务数组，以涵盖不同的实际用例。此外，我们提出了InterleavedEval，这是一种强大的无参考度量标准，由GPT-4o提供支持，以提供准确和可解释的评估。我们精心定义了InterleavedEval的五个基本评估方面，包括文本质量、感知质量、图像连贯性、文本-图像连贯性和有用性，以确保全面和精细的评估。通过广泛的实验和严格的人类评估，我们展示了我们的基准和度量可以有效地评估现有模型，并且与人类判断具有强相关性，超过了以前的基于参考的度量标准。我们还提供了大量的发现和见解，以促进未来交错生成及其评估的研究。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决交替生成图像和文本的评估问题，现有的评估基准不支持任意交替的图像和文本输入和输出，并且只涵盖了有限数量的领域和用例。
关键思路

本文提出了InterleavedBench评估基准和InterleavedEval评估指标，InterleavedBench包含多个任务以覆盖多样的实际用例，InterleavedEval采用GPT-4o提供准确和可解释的评估。
其它亮点

本文提供了一个全面的评估框架，包括文本质量、感知质量、图像连贯性、文本图像连贯性和帮助性等五个方面，可以有效地评估现有模型，并与人类判断具有强相关性。同时，本文提供了大量的实验发现和见解，有助于未来的研究。
相关研究

最近的相关研究包括：《A Survey on Evaluation Methods for Text-to-Image Generation》、《Text-to-Image Generation Grounded by Fine-Grained User Attention》等。

Holistic Evaluation for Interleaved Text-and-Image Generation

提问交流

提问交流