- 简介在这份技术报告中,我们介绍了我们针对监督式大词汇量视觉检测任务所进行的 Vast Vocabulary Visual Detection (V3Det) 数据集的研究结果。如何处理复杂的类别和检测框在这个任务中成为了一个难点。原始的监督式检测器并不适用于这个任务。我们设计了一系列的改进,包括对网络结构的调整、损失函数的更改和训练策略的设计。我们的模型在基线上表现出了改进,并在 V3Det Challenge 2024 的大词汇量物体检测(监督式)和开放式词汇量物体检测(OVD)两个任务的排行榜上取得了优秀的排名。
-
- 图表
- 解决问题本文旨在解决V3Det数据集中的复杂类别和检测框问题,通过改进网络结构、损失函数和训练策略来提高监督式Vast Vocabulary Visual Detection任务的性能。
- 关键思路本文的关键思路是通过对网络结构、损失函数和训练策略进行改进来提高监督式Vast Vocabulary Visual Detection任务的性能。
- 其它亮点本文通过在V3Det数据集上的实验验证了所提出方法的有效性,并在Vast Vocabulary Object Detection (Supervised) track和Open Vocabulary Object Detection (OVD) track上取得了优异的排名。实验使用了V3Det数据集,作者提供了开源代码。
- 在这个领域中,最近的相关研究包括《Object Detection with Transformers》、《End-to-End Object Detection with Transformers》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流