- 简介图像字幕生成已被证明是一种有效的预训练方法,类似于对比度预训练。然而,将位置感知信息纳入视觉预训练仍然是一个研究有限的领域。在本文中,我们提出了一种简单的带位置感知字幕生成器(LocCa)的视觉预训练方法。LocCa使用简单的图像字幕生成任务接口,教授模型读取丰富的信息,即边界框坐标和字幕,条件是图像像素输入。由于编码器-解码器架构的多任务能力,我们展示了图像字幕生成器可以在预训练期间轻松处理多个任务。我们的实验表明,LocCa在维持整体任务的可比性能的同时,在本地化下游任务上显著优于标准字幕生成器。
- 图表
- 解决问题本文旨在提出一种简单的视觉预训练方法,其中包含位置感知信息,以解决图像标注中的本地化问题。该方法是否是一个新问题?
- 关键思路LocCa是一种视觉预训练方法,使用简单的图像标注器任务接口,在像素输入条件下教授模型读出丰富的信息,即边界框坐标和字幕。通过编码器-解码器架构的多任务能力,演示了图像标注器可以在预训练期间轻松处理多个任务。相比当前领域的研究状况,这篇论文的思路有什么新意?
- 其它亮点实验表明,LocCa在保持整体任务的可比性的同时,在本地化下游任务上显着优于标准标注器。实验使用了多个数据集,并提供了开源代码。该方法的亮点是能够处理多个任务,同时提高了对本地化信息的理解。
- 最近的相关研究包括使用对比预训练的图像标注和其他视觉预训练方法。
沙发等你来抢
去评论
评论
沙发等你来抢