LocCa: Visual Pretraining with Location-aware Captioners

向作者提问

NEW

简介

图像字幕生成已被证明是一种有效的预训练方法，类似于对比度预训练。然而，将位置感知信息纳入视觉预训练仍然是一个研究有限的领域。在本文中，我们提出了一种简单的带位置感知字幕生成器（LocCa）的视觉预训练方法。LocCa使用简单的图像字幕生成任务接口，教授模型读取丰富的信息，即边界框坐标和字幕，条件是图像像素输入。由于编码器-解码器架构的多任务能力，我们展示了图像字幕生成器可以在预训练期间轻松处理多个任务。我们的实验表明，LocCa在维持整体任务的可比性能的同时，在本地化下游任务上显著优于标准字幕生成器。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种简单的视觉预训练方法，其中包含位置感知信息，以解决图像标注中的本地化问题。该方法是否是一个新问题？
关键思路

LocCa是一种视觉预训练方法，使用简单的图像标注器任务接口，在像素输入条件下教授模型读出丰富的信息，即边界框坐标和字幕。通过编码器-解码器架构的多任务能力，演示了图像标注器可以在预训练期间轻松处理多个任务。相比当前领域的研究状况，这篇论文的思路有什么新意？
其它亮点

实验表明，LocCa在保持整体任务的可比性的同时，在本地化下游任务上显着优于标准标注器。实验使用了多个数据集，并提供了开源代码。该方法的亮点是能够处理多个任务，同时提高了对本地化信息的理解。
相关研究

最近的相关研究包括使用对比预训练的图像标注和其他视觉预训练方法。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问