Drop your Decoder: Pre-training with Bag-of-Word Prediction for Dense Passage Retrieval

2024年01月20日
  • 简介
    掩码自编码器预训练已成为初始化和增强密集检索系统的普遍技术。它通常利用额外的Transformer解码器块提供可持续的监督信号,并将上下文信息压缩成密集表示。然而,这种预训练技术的有效性的基本原因仍不清楚。使用基于Transformer的额外解码器也会产生显着的计算成本。在这项研究中,我们旨在通过揭示掩码自编码器(MAE)预训练与增强解码显著改善了密集表示中输入标记的术语覆盖率,与普通的BERT检查点相比,来阐明这个问题。基于这个观察结果,我们提出了一种修改传统MAE的方法,即用一个完全简化的词袋预测任务替换掩码自编码器的解码器。这种修改通过无监督预训练使词汇信号能够高效地压缩成密集表示。值得注意的是,我们提出的方法在几个大规模检索基准上实现了最先进的检索性能,而不需要任何额外的参数,相比于增强解码的标准掩码自编码器预训练,提供了67%的训练加速。
  • 图表
  • 解决问题
    本文试图解决使用MAE预训练模型时,增加Transformer解码器所带来的计算成本问题,同时提高输入词汇的覆盖率。
  • 关键思路
    本文提出了一种修改版的MAE预训练模型,使用简化的词袋预测任务替换了解码器,实现了对词汇信号的高效压缩,并在多个大规模检索基准测试中实现了最新的检索性能。
  • 其它亮点
    本文的亮点在于提出了一种高效的MAE预训练模型,不需要额外的参数,相比于标准的MAE预训练模型带来了67%的训练加速。实验使用了多个数据集,并取得了最新的检索性能。论文作者还开源了代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Dense Passage Retrieval for Open-Domain Question Answering》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论