标题:快手|MlTr: Multi-label Classification with Transformer(MlTr:使用变换器进行多标签分类)

简介:多标签图像分类的任务是识别所有对象标签以图像形式呈现。虽然已经推进多年,但小物体、相似物体和条件概率高的物体仍然是主要的瓶颈。先前基于卷积神经网络 (CNN) 的模型,受限于卷积核的表示能力。最近的视觉变换器网络利用自注意力机制来提取像素粒度的特征,表达更丰富的局部语义信息,而不足以挖掘全局空间依赖性。在本文中,我们指出了三个关键问题基于CNN的方法遇到并探索进行特定的可能性变换器模块来解决它们。我们提出了一个多标签变换器架构(MlTr)由窗口分区、窗口内像素注意力、跨窗口注意力构建,特别是提高了多标签图像分类任务的性能。提议的 MlTr 显示了最先进的结果在各种流行的多标签数据集上,例如 MS-COCO、Pascal-VOC、NUSWIDE,分别为 88.5%、95.8%、65.5%。

代码地址:https://github.com/starmemda/MlTr/

论文下载:https://arxiv.org/pdf/2106.06195v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除