- 简介两组图像有何不同?辨别集合级别的差异对于理解模型行为和分析数据集至关重要,然而手动筛选数千张图像是不切实际的。为了帮助这一发现过程,我们探索了自动描述两组图像之间差异的任务,我们称之为集合差异字幕生成。该任务输入图像集合$D_A$和$D_B$,并输出一种在$D_A$上更常为真的描述,而不是在$D_B$上。我们概述了一个两阶段的方法,首先从图像集中提出候选的差异描述,然后通过检查它们区分两个集合的能力来重新排名这些候选项。我们介绍了VisDiff,它首先为图像生成字幕并提示语言模型提出候选描述,然后使用CLIP重新排名这些描述。为了评估VisDiff,我们收集了VisDiffBench数据集,其中包含187对带有地面真实差异描述的图像集。我们将VisDiff应用于各种领域,例如比较数据集(例如ImageNet vs. ImageNetV2),比较分类模型(例如零样本CLIP vs.监督ResNet),总结模型失败模式(监督ResNet),表征生成模型之间的差异(例如StableDiffusionV1和V2),以及发现什么使图像难忘。使用VisDiff,我们能够发现数据集和模型中有趣且以前未知的差异,证明了它在揭示微妙洞见方面的实用性。
- 图表
- 解决问题本文试图解决如何自动描述两组图像之间的差异问题,称为Set Difference Captioning,以帮助理解模型行为和分析数据集。
- 关键思路本文提出了一种两阶段方法,首先从图像集中提出候选差异描述,然后通过检查它们对两个集合的区分能力来重新排名这些候选描述,使用VisDiff实现该方法。
- 其它亮点本文提出了VisDiff方法,并收集了包含187个成对图像集的VisDiffBench数据集,用于评估VisDiff的性能。实验结果表明,VisDiff能够发现数据集和模型中的有趣差异,揭示细微的洞察力。
- 相关研究包括图像描述、图像分类和生成模型等领域,如Show and Tell: A Neural Image Caption Generator、CLIP: Connecting Text and Images、Diffusion Models Beat GANs on Image Synthesis和Analyzing and Improving Representations with the Soft Nearest Neighbor Loss等。
沙发等你来抢
去评论
评论
沙发等你来抢