- 简介多模态扩散变压器(DiTs)的丰富表示是否具有增强其可解释性的独特属性?我们引入了ConceptAttention,这是一种新颖的方法,利用DiT注意力层的表现力生成高质量的显著性图,能够精确定位图像中的文本概念。ConceptAttention无需额外训练,重新利用DiT注意力层的参数生成高度上下文化的概念嵌入,主要发现是在DiT注意力层的输出空间中执行线性投影,相比常用的交叉注意力机制,能够产生显著更清晰的显著性图。值得注意的是,ConceptAttention甚至在零样本图像分割基准测试中达到了最先进的性能,在ImageNet-Segmentation数据集和PascalVOC的单类别子集上超越了其他11种零样本可解释性方法。我们的工作首次证明了像Flux这样的多模态DiT模型的表示在视觉任务如分割中具有高度的迁移能力,甚至超过了像CLIP这样的多模态基础模型。
- 图表
- 解决问题该论文试图解决如何提高多模态扩散变压器(DiTs)在图像中的文本概念定位精度问题,并验证其在无需额外训练的情况下,能否通过重新利用现有参数生成高质量的解释性工具。这是一个新颖的问题,特别是在零样本图像分割任务中。
- 关键思路关键思路在于引入了ConceptAttention方法,该方法利用DiT注意力层的强大表达能力生成高精度的显著性图,从而精确定位图像中的文本概念。与传统方法不同,ConceptAttention不需要额外训练,而是直接复用DiT注意力层的参数来产生上下文化的概念嵌入。研究发现,在DiT注意力层的输出空间中进行线性投影可以生成更清晰的显著性图,这比常用的交叉注意力机制更为有效。
- 其它亮点论文的主要亮点包括:1) 在ImageNet-Segmentation和PascalVOC数据集上的零样本图像分割任务中,ConceptAttention实现了最先进的性能;2) 不需要额外训练即可实现高性能;3) 提供了首个证据,证明多模态DiT模型(如Flux)的表示可以高度迁移到视觉任务,甚至超过多模态基础模型(如CLIP)。此外,作者还开源了代码,方便后续研究。
- 最近的相关研究包括《Vision Transformers for Image Segmentation》、《Cross-Attention in Multi-modal Learning》以及《Zero-shot Learning with Pre-trained Models》等。这些研究主要集中在改进多模态模型的表现,尤其是在图像分割和其他视觉任务上。
沙发等你来抢
去评论
评论
沙发等你来抢