End-to-End Retrieval with Learned Dense and Sparse Representations Using Lucene

简介

双编码器架构提供了一个框架，用于理解基于稠密和稀疏向量表示的机器学习检索模型。虽然这些表示捕捉了相同概念框架的参数化实现，但它们各自的前k相似性搜索实现需要协调不同的软件组件（例如倒排索引、HNSW索引和神经推理工具包），通常编织在复杂的架构中。在这项工作中，我们提出了以下问题：在需要对现有基础设施进行最少更改的情况下，支持现代稠密和稀疏表示的端到端检索的最简设计是什么？答案似乎是Lucene足够了，正如我们在可重复信息检索研究的工具包Anserini中所演示的那样。也就是说，使用现代单向量神经模型进行有效的检索可以直接在CPU上使用Java高效地进行。我们研究了这种设计对推动技术前沿的信息检索研究人员以及构建生产搜索系统的软件工程师的影响。
图表
解决问题

简化现有基础设施，实现支持现代稠密和稀疏表示的端到端检索的最简设计是什么？
关键思路

Lucene足以支持现代单向量神经模型的有效检索，可以直接在CPU上使用Java进行高效检索。
其它亮点

论文提出了Anserini工具包，用于可重复的信息检索研究，实验结果表明Lucene可以支持现代稠密和稀疏表示的端到端检索，无需复杂架构和多个软件组件。
相关研究

最近的相关研究包括使用深度学习模型进行检索的工作，如DSSM和CDSSM模型，以及使用词嵌入的文档检索方法，如Doc2Vec和ELMo模型。

End-to-End Retrieval with Learned Dense and Sparse Representations Using Lucene

评论