中科院 & 中科大 | 具有上下文辅助引导的图像描述

【论文标题】Image Captioning with Context-Aware Auxiliary Guidance 【作者团队】Zeliang Song，Xiaofei Zhou，Zhendong Mao，Jianlong Tan 【发表时间】2020/12/10 【论文链接】https://arxiv.org/pdf/2012.05545.pdf

【推荐理由】本文出自中国科学院和中科大的联合团队，作者利用未来和过去预测的语句信息设计了一种通用的图像描述精修模块，有效提升了现有的图像描述模型在 MS COCO 数据集上的性能。

图像描述是一种极具挑战性的计算机视觉任务，旨在为某张图像生成自然语言描述。近年来，大多数研究工作都遵循着「编码器-解码器」框架，它在进行当前词语的预测时高度依赖于之前生成的单词。这种方法并不能有效地利用未来预测的信息，从而学习完整的语义。

在本文中，作者提出了一种考虑上下文的辅助引导（CAAG）机制，它可以引导图像描述模型感知全局文本。在图像描述模型之上，CAAG 应用了语义注意力，选择性地关注了全局预测中的有用信息，从而重新生成当前的描述结果。

图 1：架构示意图。具体而言，作者首先采用了 Faster-RCNN 提取显著区域的空间视觉特征。接着，基础网络会基于视觉特征生成完整的句子（全局上下文）。最后，作者将 CAAG 应用于基础网络上，从而感知全局上下文。为了验证模型的适应能力，作者将 CAAG 应用到了三种流行的图片描述模型上，并且在 MS COCO 数据集上取得了不错的性能。

本文的贡献如下：（1）提出了 CAAG 机制，引导图像描述模型通过利用未来预测的信息感知更为完整的语义，从而提升模型对于图像描述的学习能力。（2）本文提出的方法是一种通用的方法，它可以改进现有的基于强化学习的图像描述模型。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

中科院 & 中科大 | 具有上下文辅助引导的图像描述

评论列表

评论