双塔模型的瓶颈究竟在哪？

分享一篇来自Google的工作，其实稠密检索模型的泛化能力并不是天生就差，它只是需要更强大的编码器和更多更好的训练数据而已。

论文标题：

Large Dual Encoders Are Generalizable Retrievers

论文链接：

自BEIR基准数据集提出以来，稠密检索模型的域外泛化能力得到了广泛的关注。目前学术界的一种普遍的看法是，稠密检索模型的性能瓶颈主要在于query和doc仅靠单个稠密向量的点积做交互，而单个向量的表示能力是有限的，很难依靠简单的点积来捕捉query和doc的语义相关性，因此极大地限制了模型的泛化能力，导致模型的域外泛化性能不如传统的BM25。

为了克服query和doc的交互瓶颈，一种普遍的做法是构建多向量表示模型，从而引入轻量级的交互算子，比如ColBERT、ME-BERT、Poly-encoder、COIL等。但这些模型通常会带来更大的查询时延和更大的存储开销。

但是，单向量表示模型的性能瓶颈真的完全在于简单的点积交互吗？「如果我们固定表示向量的维度，增大编码模型的尺寸，模型性能是不是也会像大规模预训练模型那样服从Scaling Law呢？」

为了回答这个问题，作者在固定稠密向量维度()不变的条件下，采用不同尺寸的T5-encoder(base、large、3B、11B)训练稠密检索模型。实验结果表明，「稠密检索模型的瓶颈并不完全在于单个向量的表示能力不足，编码器的能力也会在很大程度上影响模型的泛化能力。」

本文提出的GTR模型(Generalizable T5-based dense Retriever)在BEIR基准上大幅超越了当前所有的稀疏/稠密检索模型，取得了SOTA结果。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

双塔模型的瓶颈究竟在哪？

评论