How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

2024年07月10日
  • 简介
    主导的双编码模型可以实现高效的图像-文本检索,但准确性有限,而交叉编码器模型则以更高的准确性为代价提供更高的效率。从交叉编码器中提取跨模态匹配知识,用于双编码器,是利用它们的优势的自然方法。因此,我们研究了以下有价值的问题:如何使交叉编码器成为双编码器的良好教师?我们的发现有三个:(1)交叉编码器的跨模态相似度分数分布更集中,而双编码器的结果几乎是正常的,使得香草逻辑蒸馏不太有效。然而,排名蒸馏仍然是实用的,因为它不受分数分布的影响。(2)只有困难样本之间的相对顺序传递有效知识,而易样本之间的顺序信息几乎没有意义。(3)保持蒸馏损失和双编码器训练损失之间的协调有益于知识转移。基于这些发现,我们提出了一种新颖的对比偏序蒸馏(CPRD)方法,它通过对比学习实现了模仿困难负样本之间相对顺序的目标。这种方法与双编码器的训练相协调,有效地将有效的知识从交叉编码器转移到双编码器。对图像-文本检索和排名任务进行的大量实验表明,我们的方法超越了其他蒸馏方法,并显着提高了双编码器的准确性。
  • 图表
  • 解决问题
    如何让交叉编码器成为双编码器的有效教师,以提高图像-文本检索的准确性?
  • 关键思路
    使用对比学习的方式,通过对硬负例的相对顺序进行对比,将交叉编码器的知识转移到双编码器中。
  • 其它亮点
    论文发现,交叉编码器的跨模态相似度分数分布更加集中,而双编码器的结果近似正态分布,因此普通的逻辑蒸馏不太有效。而排名蒸馏则不受分数分布的影响。论文还发现,只有硬负例的相对顺序才传递有效知识,而容易负例之间的顺序信息几乎没有意义。最后,论文提出了一种名为CPRD的方法,使用对比学习来模仿硬负例的相对顺序,并与双编码器的训练相协调,有效地将交叉编码器的知识转移到双编码器中。
  • 相关研究
    与本文相关的研究包括:《Dual Learning for Machine Translation》、《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论