首个目标检测扩散模型，比Faster R-CNN、DETR好，从随机框中直接检测

近日，来自香港大学的罗平团队、腾讯 AI Lab 的研究者联合提出一种新框架 DiffusionDet，将扩散模型应用于目标检测。据了解，还没有研究可以成功地将扩散模型应用于目标检测，可以说这是第一个采用扩散模型进行目标检测的工作。

DiffusionDet 的性能如何呢？在 MS-COCO 数据集上进行评估，使用 ResNet-50 作为骨干，在单一采样 step 下，DiffusionDet 实现 45.5 AP，显著优于 Faster R-CNN (40.2 AP)， DETR (42.0 AP)，并与 Sparse R-CNN (45.0 AP)相当。通过增加采样 step 的数量，进一步将 DiffusionDet 性能提高到 46.2 AP。此外，在 LVIS 数据集上，DiffusionDet 也表现良好，使用 swing - base 作为骨干实现了 42.1 AP。

论文地址：https://arxiv.org/pdf/2211.09788.pdf
项目地址：https://github.com/ShoufaChen/DiffusionDet

该研究发现在传统的目标检测里，存在一个缺陷，即它们依赖于一组固定的可学习查询。然后研究者就在思考：是否存在一种简单的方法甚至不需要可学习查询就能进行目标检测？

为了回答这一问题，本文提出了 DiffusionDet，该框架可以直接从一组随机框中检测目标，它将目标检测制定为从噪声框到目标框的去噪扩散过程。这种从 noise-to-box 的方法不需要启发式的目标先验，也不需要可学习查询，这进一步简化了目标候选，并推动了检测 pipeline 的发展。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

首个目标检测扩散模型，比Faster R-CNN、DETR好，从随机框中直接检测

评论列表

评论