Cross-domain Multi-modal Few-shot Object Detection via Rich Text

简介

跨模态特征提取和集成已经在少样本学习任务中带来了稳定的性能提升，因为它可以生成更丰富的特征。然而，现有的多模态目标检测方法在面对显著的领域偏移和样本不足时会退化。我们假设丰富的文本信息可以更有效地帮助模型建立视觉实例和其语言描述之间的知识关系，并有助于缓解领域偏移。具体而言，我们研究了跨域少样本的多模态目标检测（CDMM-FSOD），提出了一种基于元学习的多模态少样本目标检测方法，利用丰富的文本语义信息作为辅助模态，在FSOD的背景下实现领域自适应。我们提出的网络包含（i）一个多模态特征聚合模块，用于对齐视觉和语言支持特征嵌入，以及（ii）一个丰富的文本语义矫正模块，利用双向文本特征生成来加强多模态特征对齐，从而增强模型的语言理解能力。我们在常见的标准跨域目标检测数据集上评估了我们的模型，并证明了我们的方法明显优于现有的FSOD方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决现有多模态目标检测方法在面对领域偏移和样本不足时的性能下降问题，并通过使用丰富的文本语义信息作为辅助模态来实现领域自适应。
关键思路

本文提出了一种基于元学习的多模态少样本目标检测方法，利用文本语义信息作为辅助模态来实现领域自适应。该方法包含一个多模态特征聚合模块和一个丰富的文本语义校正模块，通过增强多模态特征对齐来提高模型的语言理解能力。
其它亮点

本文在常见的标准跨领域目标检测数据集上进行了评估，并证明了该方法明显优于现有的少样本目标检测方法。该方法的实验设计合理，使用了多个数据集，并提供了开源代码，值得进一步研究。
相关研究

在这个领域中，最近的相关研究包括《Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector》、《Few-Shot Object Detection via Feature Reweighting》等。

Cross-domain Multi-modal Few-shot Object Detection via Rich Text

提问交流

提问交流