亚马逊提出无监督虚拟增强句子表征学习框架，效果超越SimCSE

论文标题：

Virtual Augmentation Supported Contrastive Learning of Sentence Representations

论文链接：

想让模型多见一些困难样本，有两种方式：

第一种方式就是充分挖掘现在的数据集，找出现在数据集内的困难样本，然后通过加大这些样本的权重或者出现的比例，强迫模型多关注这些难题。

另一种方式就是创造更多的困难样本，常见的方式一般是人为分析数据后进行手工添加，可以配合一些仿射变换；那么能不能像第一种方式那样，在训练过程中，让网络自己想办法去创建一些困难样本呢？

好了，本文的主角终于来了—— VaSCL，其会在网络训练的过程中利用高斯白噪声自动创造一些虚拟的困难样本。

内容中包含的图片若涉及版权问题，请及时与我们联系删除