Mamba Retriever: Utilizing Mamba for Effective and Efficient Dense Retrieval

2024年08月15日
  • 简介
    在信息检索领域,稠密检索(DR)模型使用深度学习技术将查询和段落编码成嵌入空间,计算它们的语义关系。对于DR模型来说,平衡效率和效果非常重要。预训练语言模型(PLMs),特别是基于Transformer的PLMs,已被证明是DR模型的有效编码器。然而,Transformer-based PLM中的自注意力组件导致计算复杂度随序列长度呈平方增长,因此在长文本检索中表现出较慢的推理速度。一些最近提出的非Transformer PLMs,特别是Mamba架构PLMs,在生成语言任务上不仅证明了与Transformer-based PLMs相当的有效性,而且由于序列长度的线性时间缩放而具有更好的效率。本文实现了Mamba Retriever来探索Mamba是否可以作为IR任务的DR模型的有效和高效编码器。我们在经典的短文本MS MARCO段落排序数据集和长文本LoCoV0数据集上微调了Mamba Retriever。实验结果表明:(1)在MS MARCO段落排序数据集和BEIR上,Mamba Retriever的有效性与Transformer-based检索模型相当或更好,有效性随Mamba模型的大小增长而增加;(2)在长文本LoCoV0数据集上,Mamba Retriever可以在检索任务微调后扩展到比其预训练长度更长的文本长度,并且与其他长文本检索模型相比具有相当或更好的有效性;(3)Mamba Retriever在长文本检索中具有优越的推理速度。总之,Mamba Retriever既有效又高效,使其成为一个实用的模型,特别是用于长文本检索。
  • 图表
  • 解决问题
    本文旨在探究非Transformer PLMs是否能够作为DR模型的有效且高效的编码器,以用于IR任务。同时,也旨在解决Transformer-based PLMs在长文本检索中存在的计算复杂度高、推理速度慢的问题。
  • 关键思路
    本文实现了Mamba Retriever,通过对经典的短文本MS MARCO和长文本LoCoV0数据集进行fine-tune,证明了Mamba Retriever在IR任务中的有效性和高效性。相比于Transformer-based检索模型,Mamba Retriever可以在推理速度方面具有更好的表现,而且可以在长文本检索中展现出更好的效果。
  • 其它亮点
    本文实现了Mamba Retriever,通过对MS MARCO和LoCoV0数据集进行fine-tune,证明了Mamba Retriever在IR任务中的有效性和高效性。实验结果表明,Mamba Retriever在短文本检索上的表现与Transformer-based检索模型相当或更好,且效果随Mamba模型的大小而增加;在长文本检索上,Mamba Retriever可以比其预训练长度更长地进行fine-tune,并且与其他长文本检索模型相比具有相当或更好的效果;Mamba Retriever在长文本检索方面具有卓越的推理速度。
  • 相关研究
    最近的相关研究包括使用PLMs进行DR模型编码器的研究,以及针对Transformer-based PLMs在长文本检索中存在的计算复杂度和推理速度问题进行的研究。例如,Dense Passage Retrieval和Dense Retrieval with Efficient Attentive Mechanism等研究都探究了如何使用PLMs进行DR模型编码器的研究。而Mamba Retriever则是一种新的非Transformer PLMs,其线性时间缩放的特点使其在长文本检索方面具有优越性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论