Progressive Query Expansion for Retrieval Over Cost-constrained Data Sources

2024年06月11日
  • 简介
    查询扩展技术长期以来一直被用于提高查询检索器的准确性。早期的研究依赖于伪相关反馈(PRF)技术,该技术通过从第一阶段检索的文档中提取术语来扩展查询。然而,文档可能存在噪声,从而影响排名的有效性。为了避免这种情况,最近的研究使用大型语言模型(LLMs)来生成额外的内容来扩展查询。这些技术容易出现幻觉,并且还关注LLM使用成本。然而,在多种重要的实际场景中,检索可能支配成本,其中语料库仅通过每检索一个文档收费的API可用。我们提出将经典的PRF技术与LLMs相结合,创建一个渐进式查询扩展算法ProQE,随着检索更多的文档,逐步扩展查询。ProQE兼容稀疏和密集检索系统。我们在四个检索数据集上的实验结果表明,ProQE的表现优于最先进的基线37%,并且是最具成本效益的。
  • 图表
  • 解决问题
    本论文旨在提出一种新的查询扩展算法ProQE,以解决使用大型语言模型进行查询扩展时可能出现的幻觉问题,并且在实际应用中更加节省成本。
  • 关键思路
    ProQE算法将传统的伪相关反馈技术与大型语言模型相结合,采用逐步扩展查询的方式,以更有效地进行查询扩展。
  • 其它亮点
    论文在四个检索数据集上进行了实验,结果表明ProQE算法比当前最先进的基准算法表现提高了37%,并且在成本效益方面也是最优的。
  • 相关研究
    最近的相关研究包括使用大型语言模型进行查询扩展的技术和传统的伪相关反馈技术。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论