图像描述|用于图像描述的双层级协作Transformer(AAAI 2021) 【论文标题】Dual-Level Collaborative Transformer for Image Captioning 【图像描述】用于图像描述的双层协作Transformer(AAAI 2021) 【论坛网址】https://hub.baai.ac.cn/view/5957 【作者团队】Yunpeng Luo, Jiayi Ji, Xiaoshuai Sun, Liujuan Cao, Yongjian Wu, Feiyue Huang, Chia-Wen Lin, Rongrong Ji 【机构】厦门大学,腾讯优图实验室 【发表时间】2020/1/16 【代码链接】https://github.com/luo3300612/image-captioning-DLCT 【论文链接】https://arxiv.org/abs/2101.06462 【推荐理由】 本文收录于AAAI 2021会议,提出一个双层级特征协作的Transformer结构,以实现区域特征和网格特征两者的优势互补,从而解决多路特征直接融合带来的语义噪声问题。 目标检测网络提取的描述性区域特征在图像描述的最新发展中发挥了重要作用。但是,他们仍然因缺少上下文信息和细粒度的细节而受到批评,而相反,这是传统网格特征的优点。在本文中,我们介绍了一种新颖的双层协作Transformer(DLCT)网络,以实现这两种功能的互补优势。 具体而言,在DLCT中,这两个功能首先由新型的双向自关注(DWSA)处理以挖掘其内在特性,同时还引入了“综合关系关注”组件来嵌入几何信息。 此外,我们提出了一种局域约束的交叉注意模块,以解决由这两个特征直接融合而引起的语义噪声,其中构建了几何对齐图以准确对齐和增强区域和网格特征。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢