论文链接:https://arxiv.org/pdf/2203.13249.pdf
代码链接:https://github.com/amazon-research/bigdetection
摘要
近年来,针对目标检测任务的数据集和开放挑战层出不穷。在本文中,来自复旦大学和亚马逊的研究人员提出了一个新的大尺度目标检测数据集BigDetection以实现更泛化、更有效的检测系统。BigDetection的目标是利用现有开源目标检测数据集(LVIS, OpenImages和Object365)的训练数据,并精心设计规则,并让其成为用于目标检测模型预训练的一个更大的数据集。它包含600种物体类别,包含超过340万张训练图像和3600万个边界框。在BigDetection上预训练的模型,在MSCOCO等其他目标检测数据集上也有着更为卓越的性能表现,且显著地提升了少样本数据集上的迁移学习性能。
贡献
本文的目的是利用现有数据集(如LVIS, OpenImages和Objects365)的训练数据,通过精心设计的组织原则得到一个更大的数据集以实现目标检测模型的预训练。不同于已有的目标检测数据集,本文使用语言模型建立初始的跨数据集标签空间,并进行手工验证以获得最终的目标类别。BigDetection数据集有600个ob对象类别,包含3.4M训练图像和36M边界框。
本文的贡献可以总结如下:
- 引入了一个新的目标检测数据集BigDetection,在多维度上超越了已有数据集,可以作为一个更具挑战性的基准评估不同的目标检测方法;
- 展示了BigDetection作为预训练数据集的有效性,在数据效率的设定下,预训练模型在COCO验证和测试集均取得了有限的性能;
- 进行了全面的消融研究以提供目标检测器在大规模数据集上的能力。
方法
本文首先回顾了若干已有数据集的特点所在:
LVIS V1.0是一个大型实例识别数据集。通过使用COCO中的样本,它为超过1200类目标收集了高质量的目标定位框和分割掩模。然而,LVIS具有严重的长尾分布问题,其中近一半类别只含有较少的训练样本。此外,由于LVIS的对象类别是COCO的10倍以上,因此存在一些无信息量的注释,如图1中的“crumb”示例。这两个问题都使得LVIS不适合作为预训练数据集。
OpenImages V6是一个包含约9M图像的大规模数据集。它具有丰富的注释,包括图像级标签、对象定位框、分割掩模、视觉关系、局部叙述等。目标检测方面,OpenImages有14.6M超过600类对象的14.6M个目标定位框。这些框中90%是由专业注释人员手工标注。然而,仍可以发现这一数据集存在大量质量较差的注释。例如,从图3a和图3c中可以观察到边界盒重叠问题,若干相似的边界框位于相同的位置,但有不同的类标签。此外,OpenImages中的一些类别可能对目标检测模型的预训练没有帮助,例如图4a和图4c中的“茶”和“化妆品”。
Objects365是另一个大型目标检测数据集。它包含大约1.72万张图片,超过228m的边界框,超过365个类别。与OpenImages相比,Objects365在数据集规模上接近,但词汇量较小。
构建跨数据集标签空间
考虑到不同数据集之间的嘈杂注释和域差异,本文的目标是在一个统一的类别空间中合并数据集,并训练一个单一的检测器。如下图所示,共包括如下步骤:
- 首先,采用LVIS的对象类别作为初始类别字典,因为LVIS数据集具有最大的分类法和最细粒度的注释;
- 其次,利用Bert-Large模型在每个数据集中提取类别词的特征;
- 接着,在Objects365/OpenImages的每个类别词和LVIS的类别词之间计算一个相似的余弦度,特征越相似,分类合并的可能性就越大。
因此,通过收集前10个相似的对,将生成一个初始的类别映射字典。最后,为了进一步提高最终词汇的有效性,按照以下原则对字典中的每一对匹配对进行手动验证:类别匹配、类别合并、类别消除、遮挡消除。
BigDetection数据集
根据LVIS的统计规则,如果一个类别包含100个以上的样本,则认为该类别是频繁的。在BigDetection中,共包含555个频繁类别,超过了OpenImages中540个和Objects365中363个频繁类别。由于大多数类都频繁出现,BigDetection不易受限于长尾问题,这使得它更适合用于目标检测器的预训练。
在目标尺寸方面,作者在图5b中绘制了不同数据集中不同尺寸的目标实例数量。可以看到,OpenImages和Objects365偏向于特定的尺度,而BigDetection在对象尺度上是平衡的。
实验
BigDetection被划分为训练集和测试集两个集合。当使用它作为新的数据集时,则在训练集上训练不同的检测模型,并在测试集上评估它们的性能。当使用它作为预训练数据集时,首先在训练集上对检测模型进行预训练,然后在COCO训练集上对其进行微调,并在COCO验证集或测试开发集上报告结果。
本文采用CenterNet2作为基准模型并进行消融研究。除非另有说明,否则大多数超参数都遵循CenterNet2的默认设置。
从表2可以看出,COCO上有效的检测器在BigDetection上也表现良好,如CenterNet2和Cascade R-CNN在两个数据集上都表现最好。
此外,作者使用经过训练的CenterNet2模型,通过TIDE进行错误诊断,结果如图6所示。
表3所示的结果表明在BigDetection上预训练的模型在COCO验证上获得了更高的APs。
使用BigDetection上预训练的模型在其他domain的少量数据上finetune,相比于一些半监督self-training方法,具有更好的性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢