- 简介生成式检索(Wang等人,2022年;Tay等人,2022年)是一种全新的端到端文档检索方法,它可以直接生成给定查询的文档标识符。目前,设计有效且高质量的文档标识符的技术仍然很少被探索。我们介绍了ACID,其中每个文档的标识符由大型语言模型生成的抽象关键词组成,而不是像过去的工作一样使用整数标识序列。我们将我们的方法与当前最先进的标识符生成技术进行了比较,该技术通过对文档嵌入进行分层聚类来生成标识符。我们还研究了更简单的生成自然语言文档标识符的方法,包括使用每个文档的前k个单词或在文档中具有高BM25分数的单词作为其标识符的朴素方法。我们展示了使用ACID相对于基线技术在MSMARCO 100k检索任务中提高了15.6%和14.4%的前10和前20准确率,以及在自然问题100k检索任务中分别提高了4.4%和4.0%。我们的结果证明了在使用语言模型进行生成式检索时,使用易于理解的自然语言标识符的有效性。在正式发表时,我们将发布复现我们结果所需的代码和关键词增强数据集。
- 图表
- 解决问题论文试图提出一种新的生成检索方法,解决端到端文档检索中文档标识符的生成问题。同时比较了不同方法的性能表现。
- 关键思路论文提出了一种新的文档标识符生成方法,即使用大型语言模型生成抽象关键词短语作为文档标识符。相比于过去的方法,这种方法更加人性化,能够提高检索的准确性。
- 其它亮点论文使用ACID方法生成文档标识符,与目前最先进的基于嵌入聚类的方法进行了比较。实验结果表明,ACID方法能够显著提高检索准确性。此外,论文还比较了其他简单的文档标识符生成方法,并在两个数据集上进行了实验。论文的代码和数据集将在正式出版后发布。
- 最近的相关研究包括Wang等人和Tay等人提出的生成检索方法。
沙发等你来抢
去评论
评论
沙发等你来抢