PLAID SHIRTTT for Large-Scale Streaming Dense Retrieval

Dawn Lawrie,
Efsun Kayi,
Eugene Yang,
James Mayfield,
Douglas W. Oard
270
热度
IR
NLP
2024年05月02日
  • 简介
    PLAID是ColBERT后交互双编码器的高效实现,利用预训练语言模型进行排名,一直以来在单语、跨语言和多语言检索中保持着最先进的性能。与ColBERT不同,PLAID通过将术语分配到集群中,并将这些术语表示为集群中心加上压缩的残差向量来进行表示。虽然PLAID在批处理实验中很有效,但在流式设置中,由于新标记的表示可能由于早期用于选择集群中心的标记而被错误地建模,因此其性能会降低。PLAID SHIRTTT是一种基于分层分片的多阶段增量索引的流式索引方法,解决了这个问题。在ClueWeb09和多语言NeuCLIR集合上的实验表明,这种方法在ColBERT架构索引的迄今最大集合和多语言设置中都非常有效。
  • 图表
  • 解决问题
    PLAID SHIRTTT试图解决PLAID在流式检索中性能下降的问题,即新的tokens的表示可能不受早期tokens选择聚类中心的影响。
  • 关键思路
    PLAID SHIRTTT采用基于分层分片的多阶段增量索引来解决流式检索中的性能问题。
  • 其它亮点
    PLAID SHIRTTT在ClueWeb09和多语言NeuCLIR数据集上进行了实验,证明了其在ColBERT架构中目前最大的数据集和多语言环境下的有效性。
  • 相关研究
    在这个领域中,最近的相关研究包括ColBERT和其他基于预训练语言模型的双编码器,以及其他解决流式检索问题的方法,如FLEX和S3IDF。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论