【论文标题】Removing Word-Level Spurious Alignment between Images and Pseudo-Captions in Unsupervised Image Captioning

【作者团队】Ukyo Honda,Yoshitaka Ushiku,Atsushi Hashimoto,Taro Watanabe,Yuji Matsumoto

【机构】Nara Institute of Science and Technology , OMRON SINIC X Corp.,  RIKEN Center for Advanced Intelligence Project

【发表时间】2021/4/29

【论文链接】https://arxiv.org/pdf/2104.13872.pdf

【代码链接】https://github.com/ukyh/RemovingSpuriousAlignment

【推荐理由】

  本文收录于EACL 2021,文章引入了一种简单的门控机制并训练它将图像特征与伪字幕中最可靠的单词对齐,用于无监督图像字幕任务。

无监督的图像字幕是一项具有挑战性的任务,其目标是在没有图像-句子对的监督的情况下生成字幕,而仅使用从不同来源绘制的图像和句子以及从图像中检测到的对象标签。在先前的工作中,伪字幕,即包含检测到的对象标签的句子,被分配给了给定图像。以前的工作重点是在句子层次上对齐输入图像和伪字幕。但是,伪字幕包含许多与给定图像无关的单词。在这项工作中,作者调查了从图像-句子对齐中删除不匹配的单词的效果,以确定它们是如何使这项任务变得困难的。同时,文章提出了一种简单的选通机制,通过训练使图像特征仅与伪字幕中最可靠的词对齐:检测到的对象标签。实验结果表明,在不引入复句级学习目标的情况下,该方法的性能优于已有方法。结合前人的句子级对齐方法,进一步提高了算法的性能。

内容中包含的图片若涉及版权问题,请及时与我们联系删除