论文标题:Distribution Alignment: A Unified Framework for Long-tail Visual Recognition

论文链接:https://arxiv.org/abs/2103.16370

代码链接:https://github.com/Megvii-BaseDetection/DisAlign

作者单位:上海科技大学 & 旷视科技 & 中国科学院大学

本文提出一种简单,有效,通用的处理长尾视觉问题的方案,在长尾分类、检测和分割任务上表现SOTA!优于LWS、cRT和EQL等网络,代码刚刚开源!

尽管深度神经网络最近取得了成功,但是在视觉识别任务中有效地建模长尾类分布仍然具有挑战性。为了解决这个问题,我们首先通过消融研究来研究两阶段学习框架的性能瓶颈。根据我们的发现,我们提出了一种用于长尾视觉识别的统一分布对齐策略。具体来说,我们开发了一种自适应校准功能,使我们能够调整每个数据点的分类得分。然后,我们在两阶段学习中引入一种通用的重新加权方法来平衡类别先验,从而为视觉识别任务中的各种情况提供了灵活统一的解决方案。我们通过对四个任务的广泛实验来验证我们的方法,包括图像分类,语义分割,目标检测和实例分割。我们的方法以简单统一的框架实现了所有四个识别任务的最新结果。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除