PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers

2024年07月05日
  • 简介
    本文探讨的计算机视觉方法明确地检测物体部分并在其上进行推理,这是向本质上可解释的模型迈出的一步。目前的方法是通过细粒度分类任务驱动部分发现,这使得对发现部分的几何属性做出了非常限制性的假设;它们应该是小而紧凑的。虽然这种先验在某些情况下是有用的,但本文表明,预训练的基于transformer的视觉模型,例如自监督的DINOv2 ViT,可以放松这些约束。特别地,我们发现,总变差(TV)先验,它允许任意大小的多个连通组件,显著优于先前的工作。我们在三个细粒度分类基准数据集上测试了我们的方法:CUB、PartImageNet和Oxford Flowers,并将结果与先前发布的方法以及使用基于transformer的骨干网络重新实现的最先进的方法PDiscoNet进行了比较。我们在整个数据集上一致地取得了显著的改进,无论是在部分发现指标还是下游分类任务上,这表明自监督ViT模型中的强归纳偏差需要重新思考可以用于无监督部分发现的几何先验。
  • 图表
  • 解决问题
    本论文旨在解决对象部分检测和推理的问题,并提出了使用预训练的基于transformer的视觉模型进行部分发现的方法。
  • 关键思路
    本论文的关键思路是使用预训练的transformer视觉模型,如自监督DINOv2 ViT,来发现对象部分,并采用总变差(TV)先验,该先验允许任意大小的多个连接组件,从而显著提高了性能。
  • 其它亮点
    本论文在三个细粒度分类基准测试上进行了测试,包括CUB、PartImageNet和Oxford Flowers,并与以前发布的方法进行了比较。实验结果表明,该方法在部分发现指标和下游分类任务方面均有显著改进。本论文的亮点包括使用预训练的transformer视觉模型进行部分发现,并采用总变差(TV)先验,实现了更好的性能。
  • 相关研究
    在这个领域中,最近的相关研究包括PDiscoNet和其他使用深度学习方法进行部分发现的论文。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论