How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

简介

主导的双编码模型可以实现高效的图像-文本检索，但准确性有限，而交叉编码器模型则以更高的准确性为代价提供更高的效率。从交叉编码器中提取跨模态匹配知识，用于双编码器，是利用它们的优势的自然方法。因此，我们研究了以下有价值的问题：如何使交叉编码器成为双编码器的良好教师？我们的发现有三个：（1）交叉编码器的跨模态相似度分数分布更集中，而双编码器的结果几乎是正常的，使得香草逻辑蒸馏不太有效。然而，排名蒸馏仍然是实用的，因为它不受分数分布的影响。（2）只有困难样本之间的相对顺序传递有效知识，而易样本之间的顺序信息几乎没有意义。（3）保持蒸馏损失和双编码器训练损失之间的协调有益于知识转移。基于这些发现，我们提出了一种新颖的对比偏序蒸馏（CPRD）方法，它通过对比学习实现了模仿困难负样本之间相对顺序的目标。这种方法与双编码器的训练相协调，有效地将有效的知识从交叉编码器转移到双编码器。对图像-文本检索和排名任务进行的大量实验表明，我们的方法超越了其他蒸馏方法，并显着提高了双编码器的准确性。
图表
解决问题

如何让交叉编码器成为双编码器的有效教师，以提高图像-文本检索的准确性？
关键思路

使用对比学习的方式，通过对硬负例的相对顺序进行对比，将交叉编码器的知识转移到双编码器中。
其它亮点

论文发现，交叉编码器的跨模态相似度分数分布更加集中，而双编码器的结果近似正态分布，因此普通的逻辑蒸馏不太有效。而排名蒸馏则不受分数分布的影响。论文还发现，只有硬负例的相对顺序才传递有效知识，而容易负例之间的顺序信息几乎没有意义。最后，论文提出了一种名为CPRD的方法，使用对比学习来模仿硬负例的相对顺序，并与双编码器的训练相协调，有效地将交叉编码器的知识转移到双编码器中。
相关研究

与本文相关的研究包括：《Dual Learning for Machine Translation》、《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》等。

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

评论