- 简介尽管生成式AI取得了重大进展,但由于缺乏有效的度量标准和标准化基准,全面的评估仍然具有挑战性。例如,广泛使用的CLIPScore衡量(生成的)图像与文本提示之间的对齐程度,但在涉及对象、属性和关系组合的复杂提示的情况下,它无法产生可靠的分数。其中一个原因是CLIP的文本编码器经常作为“单词袋”而闻名,将“马正在吃草”和“草正在吃马”等提示混淆在一起。为了解决这个问题,我们引入了VQAScore,它使用视觉问答(VQA)模型通过计算对一个简单的“这个图像显示‘{text}’吗?”的“是”回答的概率来产生对齐分数。尽管比之前的艺术作品简单,但使用现成的模型计算的VQAScore在许多(8个)图像文本对齐基准测试中产生了最先进的结果。我们还使用了一种遵循文献最佳实践的内部模型来计算VQAScore。例如,我们使用双向图像-问题编码器,使图像嵌入能够依赖于所提问的问题(反之亦然)。我们的内部模型CLIP-FlanT5甚至优于使用专有GPT-4V的最强基线。有趣的是,尽管我们只用图像进行训练,但VQAScore也可以将文本与视频和3D模型对齐。VQAScore使研究人员能够使用捕捉现实世界提示组合结构的复杂文本来评估文本到视觉生成。我们引入了GenAI-Bench,一个更具挑战性的基准测试,其中包含1,600个组合文本提示,需要解析场景、对象、属性、关系和高阶推理,如比较和逻辑。GenAI-Bench还提供了对领先的图像和视频生成模型(如Stable Diffusion、DALL-E 3和Gen2)的超过15,000个人类评分。
- 图表
- 解决问题论文旨在解决图像和文本之间的对齐问题,但现有的度量方法存在一些限制,如无法处理复杂的文本提示。作者提出了一种新的度量方法VQAScore,使用视觉问答模型来计算简单问题的答案概率,以此评估图像和文本之间的对齐程度。
- 关键思路VQAScore使用视觉问答模型来评估图像和文本之间的对齐程度,相比现有的度量方法更加准确和全面。
- 其它亮点VQAScore通过使用视觉问答模型计算简单问题的答案概率来评估图像和文本之间的对齐程度。与现有的度量方法相比,VQAScore能够更准确地处理复杂的文本提示。作者还提出了一个更具挑战性的基准数据集GenAI-Bench,包含1600个组成性文本提示和15000个人类评分。作者的模型CLIP-FlanT5在测试中表现出色,比使用GPT-4V的最强基线更好。
- 最近的相关研究主要集中在图像和文本之间的对齐问题上,如CLIPScore等。
沙发等你来抢
去评论
评论
沙发等你来抢