From Matching to Generation: A Survey on Generative Information Retrieval

2024年04月23日
  • 简介
    信息检索系统是用户访问信息的关键工具,广泛应用于搜索引擎、问答系统和推荐系统等场景。传统的信息检索方法基于相似度匹配来返回排名列表,多年来一直是信息获取的可靠手段,主导了信息检索领域。随着预训练语言模型的进步,生成式信息检索(GenIR)已经成为一种新的范例,在近年来引起了越来越多的关注。目前,GenIR的研究可以分为两个方面:生成式文档检索(GR)和可靠的响应生成。GR利用生成模型的参数来记忆文档,从而能够直接生成相关的文档标识符,而无需显式索引,实现检索。另一方面,可靠的响应生成利用语言模型直接生成用户所需的信息,打破了传统信息检索在文档粒度和相关性匹配方面的局限性,提供了更多的灵活性、效率和创造力,更好地满足了实际需求。本文旨在系统地回顾GenIR的最新研究进展。我们将总结GR方面的模型训练、文档标识符、增量学习、下游任务适应、多模态GR和生成式推荐的进展,以及可靠响应生成方面的内部知识记忆、外部知识增强、生成带引用的响应和个人信息助手。我们还回顾了GenIR系统的评估、挑战和未来前景。本综述旨在为GenIR领域的研究人员提供全面的参考,鼓励进一步发展这一领域。
  • 解决问题
    本论文旨在系统地回顾生成式信息检索(GenIR)领域的最新研究进展,涵盖了生成式文档检索和可靠响应生成两个方面,并探讨了评估、挑战和未来前景。
  • 关键思路
    本论文提出了一种新的信息检索范式——生成式信息检索(GenIR),相比于传统的基于相似度匹配的信息检索方法,GenIR 利用预训练的语言模型,实现了对文档的生成式检索和响应生成。GenIR 可以更灵活、高效、创新地满足实际需求。
  • 其它亮点
    本论文分别从模型训练、文档标识符、增量学习、下游任务适应、多模式 GR 和生成式推荐、内部知识记忆、外部知识增强、引用文献生成响应和个人信息助手等方面,总结了 GenIR 领域的最新研究进展。论文还探讨了 GenIR 系统的评估、挑战和未来前景。
  • 相关研究
    在 GenIR 领域,最近的相关研究包括《Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional Generation》、《Pre-training Transformers as Energy-Based Cloze Models for Document Ranking》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论