EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models

简介

最近文本生成图像模型的进展非常显著。然而，这一领域缺乏能够准确反映这些模型性能的评估指标，特别是缺乏能够指导模型优化的细粒度指标。在本文中，我们提出了EvalAlign，这是一种以准确性、稳定性和细粒度为特征的度量方式。我们的方法利用了在大规模数据集上预训练的多模态大型语言模型（MLLM）的能力。我们开发了评估协议，重点关注两个关键维度：图像忠实度和文本-图像对齐。每个协议包括一组详细的、细粒度的说明，与特定的评分选项相连，使得可以对生成的图像进行精确的手动评分。我们对MLLM进行了监督微调（SFT），使其与人类评估判断紧密对齐，从而得到了一个稳健的评估模型。我们在24个文本生成图像模型上进行了全面测试，结果表明EvalAlign不仅提供了更好的度量稳定性，而且与现有指标相比更接近于人类偏好，证实了其在模型评估中的有效性和实用性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决文本到图像生成模型评估指标不足的问题，提出了EvalAlign指标，并验证其准确性、稳定性和细粒度。
关键思路

EvalAlign指标利用大规模语言模型（MLLMs）的能力，通过图像忠实度和文本-图像对齐两个关键维度，提供精细的评估指标。通过有监督的微调，EvalAlign与人类评估判断更加一致。
其它亮点

论文在24个文本到图像生成模型上进行了全面测试，证明EvalAlign不仅提供了更好的度量稳定性，而且与人类偏好更加一致。论文还提供了详细的评估协议和打分选项，以及开源代码。
相关研究

最近的相关研究包括《A Large-Scale Study on Language Model Pre-training》、《Generative Adversarial Networks》等。

EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models

提问交流

提问交流