论文链接:https://arxiv.org/pdf/2109.04380v2.pdf

对比学习在学习无监督句向量方面引起了广泛的关注。其中最受关注的无监督方法是unsup-SimCSE(Gao et al., EMNLP 2021)。Unsup-SimCSE使用Dropout作为数据增强方法,将相同的输入句子传递给BERT两次,获得两个对应的句向量来建立一对正例。由于BERT使用了位置嵌入,一个句子的长度信息通常会被编码到句向量中,在SimCSE中的每对正例实际上包含相同长度的信息。因此,用这些正对训练的unsup-SimCSE会存在“长度偏置”,倾向于认为长度相同的或相似的句子在语义上更为相似。通过统计观察,我们发现unsup-SimCSE确实存在这一现象,证明了我们的判断。为了解决这个问题,我们提出了一种改进方法ESimCSE(Enhanced Unsup-SimCSE):首先通过一个简单的单词重复操作对输入句子进行修改,然后将输入句及其修改后的句子分别输入到BERT,以得到长度不同的正对;此外,我们还从CV领域中引入动量对比,在不产生额外计算开销的同时,增加负对的数量。在STS数据集上的实验表明:ESimCSE相比于SimCSE有明显的性能提升,在BERT-base上平均提升了2.02%。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除