Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model

2024年05月16日
  • 简介
    视觉上下文学习(ICL)因其通过类比推理完成各种任务的能力而成为一个有前途的研究领域。然而,基于训练的视觉ICL在泛化到未见过的任务方面存在局限性,需要收集多样化的任务数据集。另一方面,现有的推理型视觉ICL方法仅依赖于文本提示,无法捕捉给定示例的细粒度上下文信息,并且在从图像转换为文本提示时可能耗费时间。为了解决这些挑战,我们提出了Analogist,一种新颖的推理型视觉ICL方法,它利用文本到图像扩散模型预训练的图像修复技术,同时利用视觉和文本提示技术。对于视觉提示,我们提出了一种自我注意克隆(SAC)方法,以指导图像示例之间的细粒度结构级别类比。对于文本提示,我们利用GPT-4V的视觉推理能力来高效生成文本提示,并引入交叉注意掩蔽(CAM)操作来增强由文本提示引导的语义级别类比的准确性。我们的方法是开箱即用的,不需要微调或优化。它也是通用和灵活的,可以在上下文中执行广泛的视觉任务。广泛的实验表明,我们的方法在定性和定量上均优于现有方法。
  • 图表
  • 解决问题
    论文旨在解决视觉上下文学习的泛化和数据收集问题,提出了一种结合视觉和文本提示的推理型视觉上下文学习方法。
  • 关键思路
    Analogist是一种推理型视觉上下文学习方法,利用了文本到图像扩散模型和自注意力克隆方法来引导图像示例之间的结构级别类比,同时利用GPT-4V的视觉推理能力生成文本提示,并引入交叉注意力掩蔽操作来增强语义级别类比的准确性。
  • 其它亮点
    论文提出的Analogist方法不需要微调或优化,具有通用性和灵活性,可以在上下文中执行各种视觉任务。实验结果表明,Analogist方法在质量和数量上都优于现有方法。
  • 相关研究
    最近的相关研究包括使用类比推理的视觉学习方法,以及使用文本提示的推理型视觉学习方法,如VOLTA、ViLBERT和VisualBERT。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论