- 简介多模态嵌入技术的进步,尤其是CLIP技术,最近在计算机视觉领域取得了几个突破。CLIP在各种任务上表现出了令人印象深刻的性能,然而,其内在的不透明架构可能会妨碍采用CLIP作为骨干的模型的应用,特别是在需要信任和模型可解释性至关重要的领域,例如医疗领域。目前,用于计算机视觉模型的解释方法依赖于通过梯度分析或输入扰动计算的显著性图。然而,这些显著性图只能计算出与最终任务相关的类别,通常比骨干训练类别范围更小。在实现CLIP作为视觉骨干的模型的情况下,学习表示中嵌入的大量信息因此未被解释。 在这项工作中,我们提出了概念可视化(ConVis),这是一种新的显著性方法,通过利用嵌入的多模态性解释图像的CLIP嵌入。ConVis利用WordNet的词汇信息计算任何概念的任务不可知的显著性图,不限于最终模型训练的概念。我们通过一个超出分布检测实验验证了我们对WordNet的使用,并在一个对象定位基准测试中测试了ConVis,展示了概念可视化正确地识别和定位了图像的语义内容。此外,我们进行了一项用户研究,证明了我们的方法可以让用户了解模型的功能。
- 图表
- 解决问题解释CLIP模型中的多模态嵌入对于医疗领域等需要可信度和模型可解释性的领域非常重要,但当前的解释方法只能解释与任务相关的类别,不能完全解释学习嵌入中的所有信息。因此,本文提出了一种新的解释方法来解释CLIP嵌入的概念,使其可以解释任何概念,而不仅仅是任务相关的类别。
- 关键思路本文提出了一种新的解释方法,称为Concept Visualization(ConVis),该方法利用WordNet中的词汇信息来计算任何概念的任务无关的Saliency Maps,以解释CLIP模型中图像的嵌入。
- 其它亮点本文的实验结果表明,ConVis可以正确识别和定位图像的语义内容,并可以给用户提供有关模型功能的见解。此外,本文还通过一个越界检测实验验证了使用WordNet的有效性。
- 近期的相关研究包括使用梯度分析或输入扰动计算Saliency Maps的解释方法,以及其他利用多模态嵌入的视觉模型,如ViLBERT、VisualBERT等。
沙发等你来抢
去评论
评论
沙发等你来抢