- 简介本文研究哪些问题对于基于检索的问答系统是具有挑战性的。我们(i)提出了检索复杂度(RC),这是一个新的度量标准,它基于检索到的文档的完整性来衡量回答问题的难度,(ii)提出了一个无监督的流程来测量RC,给定任意检索系统。我们提出的流程在六个具有挑战性的问答基准测试中比其他估计器(包括LLMs)更准确地测量了RC。进一步的研究发现,RC分数与五个研究基准测试中的QA性能和专家判断都有强烈的相关性,表明RC是一个有效的问题难度度量。高RC问题的后续分类表明,它们涵盖了广泛的问题形式,包括多跳、组合和时间QA,这表明RC分数可以对复杂问题进行分类。我们的系统还可以通过帮助识别现有数据集中更具挑战性的问题,对基于检索的系统产生重大影响。
- 图表
- 解决问题本文旨在研究哪些问题对于基于检索的问答系统具有挑战性。作者提出了检索复杂度(RC)这一新的度量标准,用于衡量回答问题的难度,并提出了一种无监督的流程来测量RC。
- 关键思路本文提出了一个新的度量标准RC,用于衡量回答问题的难度,并提出了一种无监督的流程来测量RC。RC可以帮助识别现有数据集中更具挑战性的问题,对于检索系统具有重要影响。
- 其它亮点本文的实验表明,RC得分与五个基准测试中的QA表现和专家判断强烈相关,RC得分可以对复杂问题进行分类,包括多跳,组合和时间QA。本文使用了六个具有挑战性的QA基准测试,并比其他估计器(包括LLMs)更准确地测量了RC。
- 最近在这个领域中,还有一些相关的研究,如:《A Survey on Question Answering Technology》、《A Review of Recent Advances in Question Answering》等。
沙发等你来抢
去评论
评论
沙发等你来抢