BERT为何无法彻底干掉BM25？？

近些年来，相比传统检索模型，大规模预训练式transformers结构的引入在各类任务上都有显著的提升。而这种提升在不同的数据集上有着特殊的模型设置，而当前依旧无法充分理解这些模型为什么以及如何可以更好的工作。

古人云：知己知彼，方能百战不殆。而现在的NN模型尚不能做到知己，又怎么进行下一步的升级迭代呢？今天让我们来看一下信息检索任务上,基于Bert的交叉编码器相比传统的BM25排序算法的异同有哪些呢？

论文题目：
How Different are Pre-trained Transformers for Text Ranking?

论文链接:
https://arxiv.org/abs/2204.07233

与传统的基于词的方法(如BM25或Query-Likelihood)相比，神经信息检索最近经历了令人印象深刻的性能提升。

由于诸如BERT这类模型具有大量参数，所以它能处理具有长范围依赖和复杂的句子结构。

当将BERT应用于排序时，它可以在query和doc之间构建深度交互，从而允许揭示复杂的关联模式，而不仅仅是简单的term匹配。

到目前为止，BERT交叉编码器所取得的巨大性能增益并没有被很好地解释。

我们对BERT模型到底是基于何种特征来用于计算句子相关性的匹配原则以及使用该模型的排序结果与BM25等传统稀疏排序算法的关系知之甚少。

BERT通过query和doc之间的术语交互直接捕获相关性信号，本文对BERT的交叉编码器(Cross-Encode，下文简称CE)与BM25的排序算法有何联系做一些研究。

首先提出以下几个问题：

RQ1: CE和BM25到底有和不同?
RQ1.2: CE是否对BM25检索到的相同结果进行了更好的排序?
RQ1.3: CE能更好地召回被BM25遗漏的结果吗？

其次，分别量化精确匹配和软匹配对整体效果的贡献，因为它们构成了传统稀疏检索和神经检索匹配范式之间最直接的对比。更具体地说，需要明确以下问题：

RQ2: CE是否能体现term完全匹配?
RQ3: CE能找到“不可能相关”的结果吗?

内容中包含的图片若涉及版权问题，请及时与我们联系删除