- 简介密集检索已成为在开放领域NLP任务中获取相关上下文或世界知识的重要方法。当我们在推理时使用学习到的密集检索器在检索语料库中时,经常被忽视的设计选择是语料库被索引的检索单元,例如文档、段落或句子。我们发现检索单元的选择显著影响检索和下游任务的性能。与使用段落或句子的典型方法不同,我们引入了一种新的检索单元——命题,用于密集检索。命题被定义为文本中的原子表达式,每个命题都封装了一个不同的事实,并以简洁、自包含的自然语言格式呈现。我们进行了不同检索粒度的实证比较。我们的结果显示,基于命题的检索在密集检索中显著优于传统的基于段落或句子的方法。此外,通过命题进行检索还增强了下游的问答任务的性能,因为检索到的文本更加简洁,包含与问题相关的信息,减少了冗长输入标记的需求,并最小化了不相关信息的包含。
- 图表
- 解决问题本论文旨在解决在开放域NLP任务中选择检索单元(如文档、段落或句子)对检索和下游任务性能的影响问题。同时,论文提出了一种新的检索单元——proposition,并探究了不同检索粒度的比较。
- 关键思路论文提出了一种新的检索单元proposition,它是文本中的原子表达式,每个proposition封装了一个独立的factoid,可以提供更紧凑、自包含和与问题相关的信息,从而提高检索和下游任务的性能。
- 其它亮点论文通过实验比较不同检索粒度的方法,发现基于proposition的检索方法在dense retrieval中表现显著优于传统的基于段落或句子的方法。此外,基于proposition的检索还提高了下游QA任务的性能,因为检索到的文本更加紧凑,包含与问题相关的信息,减少了不必要的信息。
- 在相关研究方面,最近的研究主要集中在使用不同的检索单元和模型来进行dense retrieval,例如使用BERT模型和句子级别的检索单元。
沙发等你来抢
去评论
评论
沙发等你来抢