- 简介文本到视频检索通过概念和嵌入式搜索回答用户查询。由于概念库的大小和训练数据的数量受到限制,因此在野外回答查询并不总是有效的,因为存在词汇外问题。此外,无论是基于概念还是基于嵌入式搜索,都无法执行推理来巩固具有逻辑和空间约束的复杂查询的搜索结果。为了解决这些问题,我们利用大型语言模型(LLM)通过文本到文本(T2T)、文本到图像(T2I)和图像到文本(I2T)转换来释义查询。这些转换将抽象概念转换成简单词语,以解决词汇外问题。此外,查询中的复杂关系可以解耦为更简单的子查询,当融合这些子查询的搜索结果时,可以获得更好的检索性能。为了解决LLM幻觉问题,本文还提出了一种新颖的基于一致性的验证策略,以过滤事实上不正确的释义查询。在TRECVid数据集上进行了广泛的即席视频搜索和已知项搜索实验。我们提供了经验性的见解,说明如何通过查询释义来解决传统上难以回答的查询。
- 图表
- 解决问题论文旨在解决视频检索中的概念库和训练数据限制、词汇表外问题以及查询复杂性问题。同时,论文还试图解决大语言模型幻觉问题。
- 关键思路论文提出了一种基于大语言模型的查询释义方法,包括文本到文本、文本到图像和图像到文本的转换,以解决词汇表外问题和查询复杂性问题。同时,将查询分解成简单的子查询来提高检索性能。
- 其它亮点论文使用TRECVid数据集进行了广泛的实验,提出了一种基于一致性的验证策略来过滤不正确的查询释义。此外,论文还开源了代码,为后续研究提供了便利。
- 最近的相关研究包括《Learning to Paraphrase for Question Answering》和《Video Retrieval Using Natural Language Queries with Limited Training Data》等。
沙发等你来抢
去评论
评论
沙发等你来抢