【普林斯顿大学&加州理工大学联合团队】寻求独特且翔实的图像描述(ECCV 2020)

【论文标题】Towards Unique and Informative Captioning of Images 【评价指标+图像描述】寻求独特且翔实的图像描述(ECCV 2020) 【作者团队】Zeyu Wang, Berthy Feng, Karthik Narasimhan, Olga Russakovsky(普林斯顿大学 & 加州理工大学) 【发表时间】2020/9/8 【论文链接】https://arxiv.org/pdf/2009.03949.pdf 【代码链接】https://github.com/princetonvisualai/SPICE-U 【推荐理由】 如何评测机器生成的图像描述独特性?如果使机器生成的图像描述富有更多的信息?让我们看看顶级研究团队(普林斯顿大学&加州理工大学)在今年计算机视觉顶级会议ECCV中是如何解决的吧!

目前最新的图像描述模型会为了提高相关评测指标的数值,从而生成出一些通用而不具有特色的描述,由于忽略了足够的细节,所以很难使得生成的描述对原图像进行误导,不能很好把图像-文本对应起来。

为了解决这一问题,在本文中,作者首先通过实验发现目前的图像描述模型依赖于对象检测器将一些评测指标例如SPICE等指标刷的很高,但是生成的描述由于通用性词语太多以至于更加容易返回不正确的干扰词。所以本文引入独特性概念来设计新的评估标准(SPICE-U),并且通过实验证明SPICE-U比SPICE相比更贴近于人类的判断,并且有效地体现了描述多样性和翔实性。同时,作者还提出了一种在解码过程中利用互信息来进行重新排名检测目标的通用技术,来改善当前现有图像描述模型的独特性和翔实性,并在新的评估标准中取得了更好的结果。

研究 自然语言处理 计算机视觉 讨论
评论0

可用Markdown格式