DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training

2024年07月12日
  • 简介
    本文介绍了一种名为DART的自动化端到端管道,旨在简化从数据收集到模型部署的整个目标检测应用程序的工作流程。在许多工业应用中,例如建筑工地的安全监控,指定对象的快速准确检测至关重要。然而,传统方法严重依赖于繁琐的手动注释和数据收集,难以适应不断变化的环境和新颖的目标对象。DART通过采用主题驱动的图像生成模块(DreamBooth with SDXL)进行数据多样化,然后进行注释阶段,其中开放词汇目标检测(Grounding DINO)为生成和原始图像生成边界框注释。这些伪标签然后由一个大型多模型模型(GPT-4o)进行审核,以保证可信度,然后作为基准真实数据用于训练实时目标检测器(YOLO)。我们将DART应用于一个自己收集的建筑机器数据集,名为Liebherr Product,其中包含23个类别的超过15K高质量图像。DART的当前实现显着提高了平均精度(AP)从0.064到0.832。此外,我们采用了DART的模块化设计,以确保易于交换和扩展性。这允许未来平稳过渡到更高级算法,无需手动标记即可无缝集成新的目标类别,并且可以适应定制环境而无需额外的数据收集。代码和数据集发布在https://github.com/chen-xin-94/DART。
  • 作者讲解
  • 图表
  • 解决问题
    DART试图解决在工业应用中快速且准确地检测指定对象的问题,而传统方法需要大量手动注释和数据收集,难以适应不断变化的环境和新目标对象的问题。
  • 关键思路
    DART是一个自动化的端到端流水线,旨在简化从数据收集到模型部署的整个对象检测应用程序的工作流程。它采用主题驱动的图像生成模块和开放词汇的对象检测模块来消除人工标注和数据收集的需要,并采用大型多模态模型来验证伪标签的可靠性,以训练实时对象检测器。
  • 其它亮点
    论文采用DART对自行收集的建筑机械数据集进行了实验,显著提高了平均精度(AP)从0.064到0.832。此外,DART采用模块化设计,使其易于扩展和交换,可以平稳过渡到更先进的算法,并且可以适应定制环境而无需额外的数据收集。代码和数据集已在GitHub上发布。
  • 相关研究
    最近的相关研究包括YOLOv4、Faster R-CNN、SSD等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问