作者:Jsgfery
链接:https://www.zhihu.com/question/455384157/answer/2137312038
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
非参数方法回归NLP领域。
非参数方法在过去很长时间里曾远离NLP领域的主流,但在最近一两年内呈现出回归的趋势,并与神经网络相结合。这类方法的典型特征是,检索一些相似的样本,并用相似的样本去做预测。最简单的一个例子是 分类器,检索
个最相似的样本,然后通过投票预测新样本的类别。
近年来在NLP领域一项比较work的非参数方法是将 分类器引入到神经网络语言模型中——
[3]。在语言模型预测下一个词时,检索
相似个词级别样本,然后用
分类器计算出一个基于样本的分布,并把这个基于样本的分布与基于模型的分布进行线性的加权融合,基于融合后的分布去做预测。使用
检索增强的Transformer语言模型超过了Transformer-XL,在语言模型任务上取得了SOTA的结果。
这类方法取得优异的效果有两方面的原因:
- 作者在论文中提到,学习词的相似性表示是比预测一个词更容易的任务。
分类器基于词的上下文表示去做检索,为语言模型提供了一种预测时利用上下文消岐的能力。而在普通的语言模型中,预测一个词时是将最后一层神经网络的隐层表示与一个固定的embedding矩阵相乘,计算每个词的概率。在这个embedding矩阵中每个词只有一种表示,不包含词所在的上下文,没有利用上下文进行消岐的能力。
使用 检索增强语言模型的方法有两个显著的优势:
- 模型可以在线更新。更新模型只需要更新检索库,而不需要更新神经网络的参数。这对需要在线更新的应用很有吸引力。
- 模型的预测结果可解释。检索出的样本可以作为模型为什么预测出一个词的解释。
后续有很多工作对 进行拓展和改进,改进的方向大致分为以下三类。
- 拿锤子找钉子,将
检索增强语言模型的方法应用到更多任务上,如应用到机器翻译任务上的
[4] ,应用到问答任务上的BERT-
[5],应用在对话系统中的KIF[6]。
- 改进检索的效率。即使近似向量检索技术可以使检索做的很高效,在解码的每一步都做一次检索还是会使得模型推理速度很慢。相关的工作如,NLM[7]对检索库进行降维和剪枝,Fast
[8]引入分层的检索提高检索效率。
- 改进检索到的样本的利用方式。使用固定的权重对基于模型的分布和基于样本的分布进行加权融合显然不是最优的利用检索样本的方式。一种改进是引入神经网络去学习怎样组合语言模型的预测和检索到的样本,如SPALM[9]和adaptive
[10]。
在神经网络模型中引入非参检索的方法还没有被充分探索,未来一年内这个方向上应该还会不断出现新的。
参考
- ^Whitening Sentence Representations for Better Semantics and Faster Retrieval. https://arxiv.org/abs/2103.15316
- ^SimCSE: Simple Contrastive Learning of Sentence Embeddings. https://arxiv.org/abs/2104.08821
- ^Generalization through Memorization: Nearest Neighbor Language Models. ICLR 2020. https://openreview.net/forum?id=HklBjCEKvH
- ^Nearest Neighbor Machine Translation. ICLR 2021. https://openreview.net/forum?id=7wCBOfJ8hJM
- ^BERT-kNN: Adding a kNN Search Component to Pretrained Language Models for Better QA. https://arxiv.org/abs/2005.00766
- ^Augmenting Transformers with KNN-Based Composite Memory for Dialog. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00356/97779/Augmenting-Transformers-with-KNN-Based-Composite
- ^Efficient Nearest Neighbor Language Models. https://arxiv.org/pdf/2109.04212.pdf
- ^Fast Nearest Neighbor Machine Translation. https://arxiv.org/abs/2105.14528
- ^Adaptive Semiparametric Language Models. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00371/100688/Adaptive-Semiparametric-Language-Models
- ^Adaptive Nearest Neighbor Machine Translation. ACL 2021. https://arxiv.org/abs/2105.13022
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢