Weighted KL-Divergence for Document Ranking Model Refinement

简介

这篇论文介绍了基于Transformer的文本检索模型，通常通过知识蒸馏和对比学习进行改进。当老师模型表现不佳时，过度校准可能会降低训练效果，因此在老师和学生模型之间实现紧密的分布匹配可能会很困难。为了正确分离正面和负面文档，本文对KL散度项进行对比重量化，以优先考虑学生和老师模型之间的对齐。本文在MS MARCO和BEIR数据集上分析和评估了所提出的损失函数，证明了它在提高测试学生模型的相关性方面的有效性。
图表
解决问题

本文旨在通过对KL散度项进行对比重新加权，以优先考虑学生模型与教师模型之间的对齐，从而提高学生模型的相关性。
关键思路

本文提出了一种新的损失函数，通过对KL散度项进行对比重新加权，以优先考虑学生模型与教师模型之间的对齐，从而提高学生模型的相关性。
其它亮点

论文在MS MARCO和BEIR数据集上对提出的损失函数进行了评估，证明了其在提高学生模型相关性方面的有效性。值得关注的是，本文的方法与对比学习相结合，可以更好地解决模型对齐问题。
相关研究

最近的相关研究包括：1.《Contrastive Learning with Hard Negative Samples》；2.《Improving Unsupervised Word-by-Word Translation》；3.《Teacher-Student Learning with Memory-Augmented Student for Small-Scale Image Classification》等。