- 简介本报告介绍了一种增强的Foundational Few-Shot Object Detection (FSOD)任务的方法,利用视觉语言模型(VLM)进行目标检测。然而,在特定的数据集上,VLM可能会遇到检测到的目标与感兴趣的目标概念不匹配的问题。这种不匹配阻碍了VLM的零样本性能和基于伪标签的微调方法的应用。为了解决这个问题,我们提出了VLM+框架,该框架集成了多模式大语言模型(MM-LLM)。具体而言,我们使用MM-LLM为每个类别生成一系列指代表达式。基于VLM的预测和给定的注释,我们通过匹配最大IoU来选择每个类别的最佳指代表达式。随后,我们使用这些指代表达式为训练集中的所有图像生成伪标签,然后将它们与原始标记数据结合起来对VLM进行微调。此外,我们采用迭代的伪标签生成和优化来进一步提高VLM的性能。我们的方法在最终测试中实现了32.56 mAP。
-
- 图表
- 解决问题本文旨在解决使用视觉-语言模型进行目标检测时,可能出现检测目标与感兴趣目标概念不对齐的问题,从而影响零样本性能和基于伪标签的微调方法的应用。
- 关键思路本文提出了VLM+框架,该框架将多模态大型语言模型(MM-LLM)与视觉-语言模型(VLM)相结合,通过生成一系列针对每个类别的指称表达式来解决目标检测中的对齐问题,并使用这些指称表达式为训练集中的所有图像生成伪标签,然后将其与原始标记数据结合使用进行微调。
- 其它亮点本文通过实验验证了VLM+框架的有效性,最终在测试中达到了32.56 mAP。此外,本文还采用了迭代式伪标签生成和优化来进一步提高VLM的性能。论文使用的数据集和开源代码也值得关注。
- 在此领域的相关研究中,最近的一些论文包括:“Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector”和“Few-Shot Object Detection via Feature Reweighting”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流