Generative Retrieval as Multi-Vector Dense Retrieval

2024年03月31日
  • 简介
    本文介绍了生成式检索在给定查询的情况下,使用序列到序列架构以端对端的方式生成相关文档的标识符。生成式检索与其他检索方法,特别是基于密集检索模型内部匹配的方法之间的关系还没有被完全理解。先前的研究表明,使用原子标识符的生成式检索等效于单向量密集检索。因此,当使用分层语义标识符时,生成式检索表现出类似于密集检索中树索引内的分层搜索行为。然而,以前的研究仅关注检索阶段,而未考虑生成式检索解码器内部的深层交互。本文通过证明生成式检索和多向量密集检索共享衡量文档与查询相关性的框架来填补这一空白。具体而言,我们研究了生成式检索的注意力层和预测头,揭示了生成式检索可以被理解为多向量密集检索的特殊情况。两种方法都将相关性计算为查询向量和文档向量以及对齐矩阵的乘积之和。然后,我们探讨了生成式检索如何应用此框架,采用不同的策略计算文档令牌向量和对齐矩阵。我们进行了实验证实了我们的结论,并表明两种范例在对齐矩阵中都具有术语匹配的共同点。
  • 图表
  • 解决问题
    本论文旨在探究生成检索与其他检索方法之间的关系,特别是那些基于密集检索模型的匹配方法。同时,论文还试图揭示生成检索中解码器的深层交互。
  • 关键思路
    通过研究生成检索的注意力层和预测头,论文揭示了生成检索可以被理解为多向量密集检索的特殊情况。两种方法都将相关性计算为查询向量和文档向量以及对齐矩阵的乘积之和。
  • 其它亮点
    论文提出的方法在实验中得到了验证,同时也展示了两种检索范式在对齐矩阵方面的共性。本论文的研究对于理解生成检索与其他检索方法之间的关系具有重要意义。
  • 相关研究
    在最近的相关研究中,有一些涉及到生成检索和密集检索模型之间的比较,例如“Dense Passage Retrieval for Open-Domain Question Answering”和“Retrieving Long Documents with Dense Retrieval and Sequence Models”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论