- 简介尽管生成式人工智能取得了重大进展,但由于缺乏有效的度量标准和标准化基准,全面评估仍然具有挑战性。例如,广泛使用的CLIPScore衡量了(生成的)图像和文本提示之间的对齐,但对于涉及对象、属性和关系组合的复杂提示,它无法产生可靠的分数。其中一个原因是,CLIP的文本编码器可以臭名昭著地作为“单词袋”,将“马正在吃草”和“草正在吃马”等提示混淆。为了解决这个问题,我们介绍了VQAScore,它使用视觉问答(VQA)模型通过计算对一个简单的“这个图像是否显示'{text}'?”问题的“Yes”答案的概率来产生对齐分数。虽然比现有技术更简单,但使用现成的模型计算的VQAScore在许多(8个)图像文本对齐基准测试中产生了最先进的结果。我们还使用了一种按照文献中的最佳实践方法的内部模型来计算VQAScore。例如,我们使用双向图像-问题编码器,允许图像嵌入依赖于所提问的问题(反之亦然)。我们的内部模型CLIP-FlanT5甚至优于使用专有GPT-4V的最强基线。有趣的是,尽管我们只用图像进行训练,但VQAScore也可以将文本与视频和三维模型对齐。VQAScore允许研究人员使用捕捉现实世界提示组合结构的复杂文本对文本到视觉生成进行基准测试。我们介绍了GenAI-Bench,这是一个更具挑战性的基准测试,包含1,600个组合文本提示,需要解析场景、对象、属性、关系以及比较和逻辑等高阶推理。GenAI-Bench还提供了超过15,000个人类评级,用于评估领先的图像和视频生成模型,例如Stable Diffusion、DALL-E 3和Gen2。
- 图表
- 解决问题论文旨在解决评估生成式人工智能的问题,提出了一种新的度量标准VQAScore,用于衡量图像和文本之间的对齐程度,尤其是对于涉及对象、属性和关系组合的复杂文本。同时,论文还提出了一个更具挑战性的基准数据集GenAI-Bench,用于评估图像和视频生成模型的性能。
- 关键思路论文的关键思路是使用基于视觉问答模型的VQAScore度量标准来评估图像和文本之间的对齐程度。VQAScore使用一个简单的“这个图像是否显示了'{text}'?”问题来计算对齐分数,该问题可以解决CLIPScore等度量标准的一些问题。此外,论文提出了一个更具挑战性的基准数据集GenAI-Bench,用于评估图像和视频生成模型的性能,其中包含1600个组合文本提示和15000个人工评分。
- 其它亮点论文使用VQAScore度量标准在8个图像文本对齐基准测试中取得了最先进的结果,而在基于GPT-4V的强基线的基础上,使用自己的模型CLIP-FlanT5仍然表现出色。此外,论文提出的GenAI-Bench数据集是一个更具挑战性的基准数据集,需要解析场景、对象、属性、关系和高阶推理,可以用于评估图像和视频生成模型的性能。
- 相关研究包括使用CLIPScore等度量标准进行图像文本对齐的研究,以及其他基准数据集的开发,如COCO、Visual Genome和CLEVR。
沙发等你来抢
去评论
评论
沙发等你来抢