From Matching to Generation: A Survey on Generative Information Retrieval

2024年04月23日
  • 简介
    信息检索系统是用户获取信息的关键工具,广泛应用于搜索引擎、问答系统和推荐系统等场景。传统的信息检索方法基于相似度匹配返回排名列表,多年来一直是信息获取的可靠手段,主导着信息检索领域。随着预训练语言模型的发展,生成式信息检索(GenIR)已经成为一种新的范式,在近年来越来越受到关注。目前,GenIR的研究可以分为两个方面:生成式文档检索(GR)和可靠响应生成。GR利用生成模型的参数来记忆文档,直接生成相关的文档标识符,从而实现检索,无需显式建立索引。另一方面,可靠响应生成则利用语言模型直接生成用户所需的信息,打破了传统信息检索在文档粒度和相关性匹配方面的限制,提供更多的灵活性、效率和创造性,更好地满足实际需求。本文旨在系统地回顾GenIR的最新研究进展。我们将总结GR方面的模型训练、文档标识符、增量学习、下游任务适应、多模态GR和生成式推荐等方面的进展,以及可靠响应生成方面的内部知识记忆、外部知识增强、生成带引文和个人信息助手的响应等方面的进展。我们还回顾了GenIR系统的评估、挑战和未来前景。本综述旨在为GenIR领域的研究人员提供全面的参考,鼓励进一步发展这一领域。
  • 图表
  • 解决问题
    本文旨在系统地回顾生成式信息检索(GenIR)领域的最新研究进展,探讨生成式文档检索和可靠响应生成两个方面的研究现状、挑战和未来前景。
  • 关键思路
    本文提出了一种新的信息检索范式——生成式信息检索(GenIR),其中,生成式文档检索(GR)利用生成模型参数来记忆文档,无需显式索引即可检索相关文档;可靠响应生成则利用语言模型直接生成用户所需的信息,突破了传统信息检索在文档粒度和相关性匹配方面的限制,提供了更大的灵活性、效率和创造性。
  • 其它亮点
    本文总结了生成式文档检索方面的进展,包括模型训练、文档标识符、增量学习、下游任务适应、多模态GR和生成式推荐等;同时也总结了可靠响应生成方面的进展,包括内部知识记忆、外部知识增强、生成带引用的响应和个人信息助手等。本文还回顾了GenIR系统的评估、挑战和未来前景。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Pre-training-based Information Retrieval》、《Generative Pre-training for Information Retrieval》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论