Noisy Self-Training with Synthetic Queries for Dense Retrieval

2023年11月27日
  • 简介
    虽然现有的神经检索模型在训练数据丰富的情况下表现出有希望的结果,并且随着训练数据的增加性能不断提高,但收集高质量的注释数据的成本是极高的。为此,我们引入了一种新颖的噪声自我训练框架,结合了合成查询,表明神经检索器可以在不依赖于任何外部模型的情况下以自我进化的方式得到改进。实验结果表明,我们的方法在通用领域(例如 MS-MARCO)和域外(即 BEIR)检索基准上持续改进,低资源设置的额外分析表明,我们的方法具有数据效率,并且在只有30%标记训练数据的情况下优于竞争基线。进一步扩展该框架进行重新排序训练表明,所提出的方法是通用的,并且在各种领域的任务上产生额外的收益。
  • 图表
  • 解决问题
    论文旨在解决神经检索模型在训练数据不充足时性能下降的问题,并提出一种新的嘈杂自训练框架结合合成查询的方法,以自我演进的方式改进神经检索器的性能,无需依赖任何外部模型。
  • 关键思路
    论文提出一种嘈杂自训练框架结合合成查询的方法,以自我演进的方式改进神经检索器的性能,无需依赖任何外部模型。
  • 其它亮点
    论文使用了MS-MARCO和BEIR等数据集进行实验,证明了该方法在通用领域和超领域检索基准上的稳定性和有效性。该方法在低资源设置下的数据效率方面表现出色,并且在reranker训练方面也具有普适性。论文提供了开源代码。
  • 相关研究
    最近的相关研究包括:1. Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering (ACL 2021); 2. Dual Query Reformulation for Complex Question Answering over Knowledge Graphs (ACL 2021); 3. Context-Aware Answer Extraction for Open-Domain Question Answering (ACL 2021)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论