- 简介在快速发展的条件图像生成研究领域中,有效评估各种模型的性能和能力面临着诸如有限的可解释性等挑战。本文介绍了VIESCORE,一种用于评估任何条件图像生成任务的可视化指导可解释度指标。VIESCORE利用多模态大语言模型(MLLMs)的通用知识作为骨干,并不需要训练或微调。我们在七个著名的条件图像生成任务上评估了VIESCORE,并发现:(1)VIESCORE(GPT4-v)与人类评估的Spearman相关系数高达0.3,而人与人之间的相关系数为0.45。(2)与GPT-4v相比,使用开源MLLM的VIESCORE在评估合成图像方面明显较弱。(3)VIESCORE在生成任务中达到了与人类评级相当的相关性,但在编辑任务中遇到了困难。基于这些结果,我们相信VIESCORE展示了在评估图像合成任务中取代人类评判的巨大潜力。
- 图表
- 解决问题论文旨在解决条件图像生成研究中存在的评估问题,即如何有效评估模型的性能和能力。
- 关键思路VIESCORE是一种基于视觉指令的可解释度评估指标,利用Multimodal Large Language Models (MLLMs)的知识作为基础,无需训练或微调。
- 其它亮点VIESCORE在七个著名的条件图像任务中进行了评估,并发现:(1)VIESCORE(GPT4-v)与人类评估的Spearman相关性很高,为0.3,而人与人之间的相关性为0.45。 (2)与开源MLLM相比,VIESCORE(GPT-4v)在评估合成图像方面明显更强。 (3)VIESCORE在生成任务中实现了与人类评分相当的相关性,但在编辑任务中表现不佳。 论文认为,VIESCORE在替代人类评判图像合成任务方面具有巨大潜力。
- 最近的相关研究包括《A Style-Based Generator Architecture for Generative Adversarial Networks》和《Progressive Growing of GANs for Improved Quality, Stability, and Variation》。
沙发等你来抢
去评论
评论
沙发等你来抢