Composing Object Relations and Attributes for Image-Text Matching

2024年06月17日
  • 简介
    本文研究了图像文本匹配的视觉语义嵌入问题。大多数现有的工作利用定制的交叉注意机制,在两个图像和文本模态之间执行局部对齐。尽管这比单模态双编码器方法更强大,但计算成本高昂。本文引入了一种双编码器图像文本匹配模型,利用场景图表示带有对象和属性节点的标题,并通过关系边相互连接。利用图形注意网络,我们的模型有效地编码对象属性和对象对象语义关系,从而实现了强大且快速的系统。将标题表示为场景图,提供了利用图神经网络的强大关系归纳偏差来有效学习对象属性和对象对象关系的能力。为了训练模型,我们提出了在整体级别(图像标题)和局部级别(图像对象实体)上对齐图像和标题的损失函数,这是模型成功的关键。我们的模型被称为对象关系和属性的组合模型,CORA。在两个著名的图像文本检索基准测试中,Flickr30K和MSCOCO上的实验结果表明,CORA在召回得分方面优于现有的计算成本高昂的交叉注意方法,同时实现了双编码器的快速计算速度。
  • 图表
  • 解决问题
    本论文旨在解决图像-文本匹配中的视觉语义嵌入问题,通过引入场景图来表示标题,利用图注意力网络有效地编码对象-属性和对象-对象语义关系,提出了一种名为CORA的双编码器图像-文本匹配模型,以实现快速而强大的系统。
  • 关键思路
    论文的关键思路是利用场景图表示标题,并利用图神经网络的强关系归纳偏差,通过双编码器模型实现图像-文本匹配,同时提出了在整体层面和局部层面对图像和标题进行对齐的损失函数。
  • 其它亮点
    论文使用了两个常见的图像-文本检索基准数据集Flickr30K和MSCOCO进行实验,并证明CORA模型在召回得分方面优于现有的计算昂贵的交叉注意力方法,同时实现了双编码器的快速计算速度。此外,论文还开源了代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》;2.《Image-Text Matching: A Survey》;3.《Dual Attention Network for Scene Text Recognition》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论