【标题】A Replication Study of Dense Passage Retriever

【作者团队】X Ma, K Sun, R Pradeep, J Lin

【论文链接】https://arxiv.org/abs/2104.05740

【发表时间】2021.4.12

【推荐理由】

本文提出对密集段落检索器的复现性研究,从原作提供的模型开始,采用Pyserini IR工具包和PyGaggle神经文本排名库中的独立实现

用习得密集表示进行文本检索,最近成为用稀疏词袋表征的"传统"文本检索的一个有希望的替代方案。最近一项备受关注的工作是用于端到端开放域问答的密集段落检索器(DPR)技术。本文提出对这项工作的复现性研究,从原作提供的模型开始,采用Pyserini IR工具包和PyGaggle神经文本排名库中的独立实现,实验结果在很大程度上验证了原论文的描述,另外得出两个重要发现,有助于更好地理解DPR:原作似乎低估了BM25基线的有效性,因此也低估了密集稀疏混合检索的结果;通过纳入来自检索器的证据和改进的答案跨度评分技术,能用与原作完全相同的模型来提高端到端问答效率。

内容中包含的图片若涉及版权问题,请及时与我们联系删除