SPLATE: Sparse Late Interaction Retrieval

2024年04月22日
  • 简介
    ColBERT引入的后交互范式在神经信息检索领域中脱颖而出,提供了一个在许多基准测试中具有令人信服的效率-效果权衡的选择。高效的后交互检索基于优化的多步策略,其中近似搜索首先识别一组候选文档以进行精确的重新排名。在这项工作中,我们介绍了SPLATE,这是ColBERTv2模型的一个简单且轻量级的适应,它学习了一个“MLM适配器”,将其冻结的令牌嵌入映射到具有部分学习的SPLADE模块的稀疏词汇空间中。这使我们能够使用传统的稀疏检索技术在后交互管道中执行候选生成步骤,特别适用于在CPU环境中运行ColBERT。我们的SPLATE ColBERTv2管道通过对可以在10ms内检索到的50个文档进行重新排名,实现了与PLAID ColBERTv2引擎相同的效果。
  • 图表
  • 解决问题
    论文旨在通过引入SPLATE模型,解决在CPU环境下使用ColBERT进行候选文档生成步骤时的效率问题。同时,保持与PLAID ColBERTv2引擎相同的检索效果。
  • 关键思路
    SPLATE是一种简单而轻量级的ColBERTv2模型适配器,通过部分学习的SPLADE模块将冻结的令牌嵌入映射到稀疏词汇空间中,以传统的稀疏检索技术执行候选文档生成步骤。
  • 其它亮点
    论文通过实验表明,SPLATE ColBERTv2管道在重新排序50个文档的情况下能够在10ms内检索到相同的效果,同时具有高效性和准确性。此外,论文还提供了开源代码和数据集。
  • 相关研究
    在这个领域中,最近的相关研究包括ColBERT和PLAID ColBERTv2模型,以及其他基于神经网络的信息检索模型,如BERT和Dense Passage Retrieval模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论