Generative Retrieval Meets Multi-Graded Relevance

2024年09月27日
  • 简介
    生成式检索代表了一种新颖的信息检索方法,它使用编码器-解码器架构来直接为查询生成相关文档标识符(docids)。虽然该方法具有优势,但目前的方法仅适用于具有二元相关性数据的情况,忽略了文档具有多级相关性的潜力。将生成式检索扩展以适应多级相关性带来了挑战,包括需要协调docid对的可能性和多个相关文档共享相同标识符的可能性。为了解决这些挑战,我们引入了一个名为GRaded Generative Retrieval(GR$^2$)的框架。GR$^2$关注两个关键组件:确保相关和不同的标识符,并实施多级约束对比训练。首先,我们通过docid生成和自编码器模型的组合来联合优化docids的相关性和独特性,从而创建既语义相关又足够独特以有效表示单个文档的标识符。其次,我们将有关相关性等级之间关系的信息纳入训练过程中。我们使用约束对比训练策略,根据它们各自的相关性等级,将查询的表示和相关文档的标识符更接近地结合起来。对具有多级和二进制相关性的数据集进行的广泛实验证明了GR$^2$的有效性。
  • 图表
  • 解决问题
    GRaded Generative Retrieval (GR$^2$)解决的问题是如何扩展生成式检索模型以处理多级别相关性数据。这是一个新问题。
  • 关键思路
    GR$^2$的关键思路是通过联合优化文档标识符的相关性和独特性来创建既相关又足够独特的标识符,并使用多级别约束对比训练来指导训练过程。
  • 其它亮点
    GR$^2$的亮点包括使用联合优化模型创建文档标识符、使用多级别约束对比训练来指导训练过程、在多级别和二元相关性数据集上进行广泛实验,证明了GR$^2$的有效性。该论文提供了开源代码。
  • 相关研究
    最近的相关研究包括使用生成式检索模型进行信息检索的其他工作,如DPR和CEDR。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论