RAR-b: Reasoning as Retrieval Benchmark

2024年04月09日
  • 简介
    语义文本相似度(STS)和信息检索任务(IR)任务是过去几年中记录嵌入式模型进展的两个主要途径。在新兴的检索增强生成(RAG)范式下,我们预见到需要评估嵌入式模型的下一级语言理解能力,并认真研究其中存储的推理能力。为此,我们提出了一个问题:检索器能否解决推理问题?通过将推理任务转化为检索任务,我们发现,即使没有专门针对推理级语言理解进行训练,当前最先进的检索器模型在扮演辅助LLMs的角色方面仍然可能远远不够胜任,特别是在推理密集型任务中。此外,尽管训练为注意指令,但对于推理任务,在推理时间内,具有指令感知能力的IR模型往往在没有指令的情况下表现更好,这为研究界对齐检索器-LLM行为差距提出了一个被忽视的问题。然而,最近的基于解码器的嵌入模型在缩小差距方面表现出巨大的潜力,突显了嵌入模型实现推理级语言理解的途径。我们还表明,尽管当前的现成的重新排序模型在这些任务上失败了,但通过微调将推理能力注入其中似乎比将其注入双编码器更容易,并且我们通过微调重新排序模型在所有任务上都达到了最先进的性能。我们发布了一个名为“Reasoning as Retrieval Benchmark(RAR-b)”的综合套件,用于评估检索器模型中存储的推理能力。RAR-b可在https://github.com/gowitheflow-1998/RAR-b上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文探讨嵌入模型在理解语言方面的推理能力,以及如何通过转化推理任务为检索任务来评估检索模型的推理能力。
  • 关键思路
    通过将推理任务转化为检索任务,发现当前最先进的检索模型在推理任务上的表现仍然不够出色,但最新的基于解码器的嵌入模型表现出了缩小差距的潜力。通过微调重新排名模型,可以实现在所有任务上的最先进表现。提出了一个名为RAR-b的基准测试套件,用于评估检索模型中存储的推理能力。
  • 其它亮点
    实验表明,当前最先进的检索模型在推理任务上表现不佳,但最新的基于解码器的嵌入模型表现出了缩小差距的潜力。通过微调重新排名模型,可以实现在所有任务上的最先进表现。提出的RAR-b基准测试套件可用于评估检索模型中存储的推理能力。
  • 相关研究
    与本文相关的研究包括:1. STS和IR任务;2. 检索增强生成(RAG)范式;3. 基于解码器的嵌入模型;4. 检索和生成模型之间的行为差距;5. 检索模型中的推理能力评估。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问