Flickr30K-CFQ: A Compact and Fragmented Query Dataset for Text-image Retrieval

2024年03月20日
  • 简介
    随着互联网上多模态信息的爆炸式增长,单模态搜索无法满足互联网应用的需求。需要进行文本-图像检索研究,以实现不同模态之间高质量、高效的检索。现有的文本-图像检索研究大多基于通用的视觉语言数据集(例如MS-COCO、Flickr30K),其中查询语句过于死板和不自然(即冗长和正式)。为了克服这个缺点,我们构建了一个新的紧凑和碎片化查询挑战数据集(称为Flickr30K-CFQ),以建立考虑多个查询内容和风格的文本-图像检索任务模型,包括紧凑和细粒度的实体-关系语料库。我们提出了一种基于LLM的提示工程的新型查询增强文本-图像检索方法。实验表明,我们提出的Flickr30-CFQ揭示了现有视觉语言数据集在现实文本-图像任务中的不足之处。我们基于LLM的查询增强方法应用于不同的现有文本-图像检索模型,分别在公共数据集和我们的挑战集Flickr30-CFQ上提高了0.9%和2.4%的查询理解性能。我们的项目可以匿名地在https://sites.google.com/view/Flickr30K-cfq上获得。
  • 图表
  • 解决问题
    本论文旨在解决多模态信息检索中存在的文本-图像检索问题,提出了一种新的紧凑和分段查询挑战数据集(Flickr30K-CFQ)和一种基于LLM的查询增强文本-图像检索方法。
  • 关键思路
    论文提出了一种新的查询增强文本-图像检索方法,使用LLM进行提示工程,以改善现有视觉-语言数据集在实际文本-图像任务中的不足。
  • 其它亮点
    论文构建了一个新的紧凑和分段查询挑战数据集(Flickr30K-CFQ),用于模拟多种查询内容和风格,包括紧凑和细粒度的实体关系语料库。实验结果表明,使用LLM进行提示工程的查询增强方法在公共数据集和Flickr30K-CFQ上均有良好表现。该项目可以匿名地在https://sites.google.com/view/Flickr30K-cfq上获得。
  • 相关研究
    近年来,在文本-图像检索领域,还有一些相关研究,如《Unifying Vision-and-Language Tasks via Text Generation》和《Visual-Textual BERT for Image Captioning, Visual Question Answering, and VQA-R》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论