目标检测是计算机视觉领域的一个基础研究主题,它利用每张图像的预定义类标签来预测边界框。大多数主流检测器使用的是基于锚的标签分配和非极大值抑制(NMS)等手动设计。近来,很多研究者提出方法通过距离感知和基于分布的标签分类来消除预定义的锚框集。尽管这些方法取得了显著的进展和优越的性能,但抛弃手动设计的 NMS 后处理可能阻碍完全的端到端训练。
基于这些问题,研究人员相继提出了 Learnable NMS、Soft NMS 和 CenterNet 等,它们能够提升重复删除效果,但依然无法提供有效的端到端训练策略。之后,Facebook AI 研究者提出的 DETR 将 Transformer 用到了目标检测任务中,还取得了可以媲美 Faster R-CNN 的效果。但是,DETR 的训练时间却大大延长,在小目标上的性能也相对较低。
旷视科技研究院BaseDetection组研究员王剑锋和西安交通大学的研究者近期提出了一个新颖问题:全卷积网络是否可以实现良好的端到端目标检测效果?(End-to-End Object Detection with Fully Convolutional Network)并从标签分配和网络架构两个方面回答并验证了这一问题。智源社区特邀请王剑锋研究员就相关内容做报告分享,欢迎大家交流。
扫描下方二维码,申请加入[智源月旦 - Transformer研究组」,与领域内海内外青年科学家交流讨论,建立联系;自由表达观点,探讨前沿课题,共享学科前沿资料信息。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论列表
沙发等你来抢
去评论


评论
沙发等你来抢