负采样(Negative Sampling, NEG)/噪声对比估计(Noise Contrastive Estimation, NCE)/生成对抗网络(Generative adversarial networks, GAN)/自监督学习(Self-supervised learning, SSL)是自然语言处理、推荐系统中常见的技术,它们各有特点而又联系密切。

本文将从自然语言处理的背景切入,按照以下逻辑,层层递进,介绍这些方法的实现区别与内在联系:

  • 负采样(NEG) 是对噪声对比估计(NCE)的近似

  • 噪声对比估计(NCE)是对极大似然估计(MLE)的近似

  • 噪声对比估计(NCE)是生成器(generator)固定的生成对抗网络(GAN)

  • InfoNCE 的是多分类版本的噪声对比估计(NCE)

  • InfoNCE 及其变体是自监督学习(SSL)常用的损失函数

  • InfoNCE 实质上是在做自归一重要性采样(SNIS)

  • 以上模型都属于能量启发模型(EIM),回避对配分函数(partition function)的直接计算

内容中包含的图片若涉及版权问题,请及时与我们联系删除