- 简介本文介绍了一种名为BootRet的生成式检索模型的自适应预训练方法。生成式检索使用可微分搜索索引来直接生成响应查询的相关文档标识符。最近的研究强调了经过精心设计的预训练任务训练的强大生成式检索模型通过微调可以增强下游检索任务的潜力。然而,生成式检索的预训练的全部潜力仍未得到充分利用,因为它依赖于预定义的静态文档标识符,这些标识符可能与不断变化的模型参数不一致。BootRet通过动态调整文档标识符来适应语料库的持续记忆,包括三个关键的训练阶段:(i)初始标识符生成,(ii)通过语料库索引和相关性预测任务进行预训练,(iii)用于标识符更新的自举方法。为了促进预训练阶段,我们进一步引入了大型语言模型生成的噪声文档和伪查询,以类似于索引和检索任务中的语义连接。实验结果表明,BootRet明显优于现有的预训练生成式检索基线,并且即使在零-shot设置下也表现良好。
-
- 图表
- 解决问题本论文旨在解决生成式检索中预训练模型使用静态文档标识符的问题,提出了一种名为BootRet的自适应预训练方法。
- 关键思路BootRet方法包括三个关键训练阶段:初始标识符生成、通过语料库索引和相关性预测任务进行预训练、标识符更新的自适应预训练。
- 其它亮点论文使用大型语言模型生成噪声文档和伪查询来辅助预训练,实验结果表明BootRet方法在生成式检索预训练中表现出色,甚至在零样本情况下也能取得良好效果。
- 与本论文相关的研究包括使用不同的预训练任务进行生成式检索预训练的工作。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流