作者:Songwei Ge, Shlok Mishra, Simon Kornblith等
简介:本文研究以对象为中心的场景层次结构上的双曲对比目标。尽管自监督/无监督方法在视觉表示学习方面取得了快速进展,但这些方法通常使用相同的场景来处理对象和场景。在本文中,作者专注于学习保留其中结构的对象和场景的表示。由于观察到视觉上相似的对象在表示空间中很接近,作者认为场景和对象应该遵循基于它们的组合性的层次结构。为了利用这种结构,作者提出了一个对比学习框架,其中欧几里德损失用于学习对象表示,双曲线损失用于鼓励场景的表示靠近双曲线空间中其组成对象的表示。这种新颖的双曲线目标通过优化其规范的大小来鼓励表示之间的场景对象同义词。实现表明:在对 COCO 和 OpenImages 数据集进行预训练时,双曲线损失提高了跨多个数据集和任务的多个基线的下游性能(包括图像分类,对象检测和语义分割)。作者还表明:学习表示的属性能够解决多种“涉及以零样本方式在场景和对象之间进行交互”的视觉任务。
论文下载:https://arxiv.org/pdf/2212.00653.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢