From Matching to Generation: A Survey on Generative Information Retrieval

向作者提问

NEW

简介

信息检索系统是用户获取信息的关键工具，广泛应用于搜索引擎、问答系统和推荐系统等场景。传统的信息检索方法基于相似度匹配返回排名列表，多年来一直是信息获取的可靠手段，主导着信息检索领域。随着预训练语言模型的发展，生成式信息检索（GenIR）已经成为一种新的范式，在近年来越来越受到关注。目前，GenIR的研究可以分为两个方面：生成式文档检索（GR）和可靠响应生成。GR利用生成模型的参数来记忆文档，直接生成相关的文档标识符，从而实现检索，无需显式建立索引。另一方面，可靠响应生成则利用语言模型直接生成用户所需的信息，打破了传统信息检索在文档粒度和相关性匹配方面的限制，提供更多的灵活性、效率和创造性，更好地满足实际需求。本文旨在系统地回顾GenIR的最新研究进展。我们将总结GR方面的模型训练、文档标识符、增量学习、下游任务适应、多模态GR和生成式推荐等方面的进展，以及可靠响应生成方面的内部知识记忆、外部知识增强、生成带引文和个人信息助手的响应等方面的进展。我们还回顾了GenIR系统的评估、挑战和未来前景。本综述旨在为GenIR领域的研究人员提供全面的参考，鼓励进一步发展这一领域。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在系统地回顾生成式信息检索（GenIR）领域的最新研究进展，探讨生成式文档检索和可靠响应生成两个方面的研究现状、挑战和未来前景。
关键思路

本文提出了一种新的信息检索范式——生成式信息检索（GenIR），其中，生成式文档检索（GR）利用生成模型参数来记忆文档，无需显式索引即可检索相关文档；可靠响应生成则利用语言模型直接生成用户所需的信息，突破了传统信息检索在文档粒度和相关性匹配方面的限制，提供了更大的灵活性、效率和创造性。
其它亮点

本文总结了生成式文档检索方面的进展，包括模型训练、文档标识符、增量学习、下游任务适应、多模态GR和生成式推荐等；同时也总结了可靠响应生成方面的进展，包括内部知识记忆、外部知识增强、生成带引用的响应和个人信息助手等。本文还回顾了GenIR系统的评估、挑战和未来前景。
相关研究

最近在这个领域中，还有一些相关的研究，如《Pre-training-based Information Retrieval》、《Generative Pre-training for Information Retrieval》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问