分享一篇来自Google的工作,其实稠密检索模型的泛化能力并不是天生就差,它只是需要更强大的编码器和更多更好的训练数据而已。
论文标题:
Large Dual Encoders Are Generalizable Retrievers
论文链接:
https://arxiv.org/abs/2112.07899
自BEIR基准数据集提出以来,稠密检索模型的域外泛化能力得到了广泛的关注。目前学术界的一种普遍的看法是,稠密检索模型的性能瓶颈主要在于query和doc仅靠单个稠密向量的点积做交互,而单个向量的表示能力是有限的,很难依靠简单的点积来捕捉query和doc的语义相关性,因此极大地限制了模型的泛化能力,导致模型的域外泛化性能不如传统的BM25。
为了克服query和doc的交互瓶颈,一种普遍的做法是构建多向量表示模型,从而引入轻量级的交互算子,比如ColBERT、ME-BERT、Poly-encoder、COIL等。但这些模型通常会带来更大的查询时延和更大的存储开销。
但是,单向量表示模型的性能瓶颈真的完全在于简单的点积交互吗?「如果我们固定表示向量的维度,增大编码模型的尺寸,模型性能是不是也会像大规模预训练模型那样服从Scaling Law呢?」
为了回答这个问题,作者在固定稠密向量维度()不变的条件下,采用不同尺寸的T5-encoder(base、large、3B、11B)训练稠密检索模型。实验结果表明,「稠密检索模型的瓶颈并不完全在于单个向量的表示能力不足,编码器的能力也会在很大程度上影响模型的泛化能力。」
本文提出的GTR模型(Generalizable T5-based dense Retriever)在BEIR基准上大幅超越了当前所有的稀疏/稠密检索模型,取得了SOTA结果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢