- 简介查询性能预测(QPP)旨在估计搜索系统对于一个查询的检索质量,而无需人工相关性判断。以前的QPP方法通常返回单个标量值,并不需要预测值近似于特定的信息检索(IR)评估指标,导致某些缺点:(i)单个标量不足以准确表示不同的IR评估指标,特别是当指标不高度相关时,(ii)单个标量限制了QPP方法的可解释性,因为仅使用标量不足以解释QPP结果。为了解决这些问题,我们提出了一种使用自动生成的相关性判断(QPP-GenRE)的QPP框架,将QPP分解为独立的子任务,即判断排名列表中每个项目与给定查询的相关性。这使我们能够使用生成的相关性判断作为伪标签来预测任何IR评估指标;同时,这使我们能够解释预测的IR评估指标,并识别、跟踪和纠正生成的相关性判断中的错误,以提高QPP质量。我们利用领先的开源大型语言模型(LLM)LLaMA来评判相关性,以确保科学的可重复性。这样做可以解决两个主要挑战:(i)为了预测基于召回率的指标而评判整个语料库的计算成本过高,(ii)在零/少样本情况下提示LLaMA的性能较差。我们设计了一种近似策略来预测基于召回率的IR指标,并建议使用人工标记的相关性判断来微调LLaMA。在TREC 2019-2022深度学习轨道上的实验表明,QPP-GenRE在精度和召回率导向的度量上均为词汇和神经排序器实现了最先进的QPP准确性。
- 图表
- 解决问题该论文旨在解决查询性能预测中存在的问题:单一标量值无法准确表示不同信息检索评估指标,且无法解释QPP结果。同时,该论文提出使用自动生成的相关性判断来解决这些问题。
- 关键思路论文提出了一种QPP-GenRE框架,使用自动生成的相关性判断将QPP分解为独立的子任务,从而可以预测任何IR评估指标,并解释预测的IR评估指标。同时,该框架可以识别、跟踪和纠正生成的相关性判断中的错误,从而提高QPP的质量。
- 其它亮点该论文使用了一个开源的大型语言模型LLaMA来判断相关性,解决了判断整个语料库来预测基于召回率的度量的计算成本过高的问题,并使用人工标记的相关性判断对LLaMA进行了微调。实验结果表明,QPP-GenRE在精度和召回率方向的度量上都实现了最先进的QPP准确性。
- 最近的相关研究包括:基于神经网络的QPP方法、使用多任务学习的QPP方法、使用迁移学习的QPP方法等。
沙发等你来抢
去评论
评论
沙发等你来抢