OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer

向作者提问

NEW

简介

本报告提出了一种名为OVLW-DETR的开放词汇检测器，它可以在自然语言的指导下检测新颖的类别，并具有强大的性能和低延迟。在OVLW-DETR的基础上，我们提供了一个端到端的训练方法，通过简单的对齐将知识从视觉语言模型（VLM）转移至对象检测器。我们通过使用从文本编码器中提取的类名嵌入来替换检测器中的固定分类层权重来对齐检测器和VLM中的文本编码器。OVLW-DETR没有额外的融合模块，具有灵活性和易于部署的特点，使其更易于实现和调节，同时提高了交错注意力计算的效率。实验结果表明，所提出的方法优于现有标准的实时开放词汇检测器在零样本LVIS基准测试上的表现。源代码和预训练模型可在[https://github.com/Atten4Vis/LW-DETR]上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种基于自然语言引导的开放词汇目标检测方法，重点是检测新类别。这是否是一个新问题？
关键思路

论文提出了一种轻量级的、易于部署的开放词汇检测器OVLW-DETR，并提供了一种端到端的训练方法，将视觉-语言模型（VLM）的知识转移到目标检测器中。该方法通过用从文本编码器中提取的类别名称嵌入替换检测器中的固定分类层权重，将检测器与VLM的文本编码器对齐。OVLW-DETR具有灵活性和易于部署的特点，无需额外的融合模块，从而提高了交替注意力计算的效率。相比现有的实时开放词汇检测器，在标准的Zero-Shot LVIS基准测试中具有更好的性能。
其它亮点

论文提出了一种新的开放词汇目标检测方法，能够识别新类别。该方法使用了轻量级的检测器OVLW-DETR，并提供了一种端到端的训练方法，通过视觉-语言模型（VLM）的知识转移来提高检测性能。实验结果表明，该方法在Zero-Shot LVIS基准测试中具有更好的性能。此外，论文提供了源代码和预训练模型。
相关研究

最近在这个领域中，还有一些相关的研究，如：1. End-to-End Object Detection with Transformers；2. Object Detection with Transformers Revisited；3. Learning to Learn from Web Data through Deep Object Detection。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问