Backpack Language Models

John Hewitt, John Thickstun, Christopher D. Manning, Percy Liang
[Stanford University]

背包语言模型

  • 动机:提出一种新的神经网络架构,称为Backpacks,旨在实现强大的建模性能和可解释性与控制的接口的结合。通过学习每个词的多个非上下文语义向量,Backpacks能够在序列中表示一个词为上下文相关的非负线性组合。
  • 方法:使用Backpacks架构来训练语言模型,并采用非上下文语义向量来表示词的不同语义方面。通过对这些可解释的钩子(hooks)进行干预,可以改变模型的行为。此外,还提出了一些简单的算法,用于可控的文本生成和去偏算法。
  • 优势:Backpacks语言模型表现出丰富的表达能力,同时通过干预语义向量实现了模型的可解释性和控制性能。实验结果显示,Backpacks的语义向量在词汇相似性评估中胜过甚至比6B参数的Transformer LM的词嵌入效果更好。

通过引入Backpacks架构和可解释的语义向量,实现了在单一模型中兼具丰富的词汇结构、干预能力和强大的上下文性能。

https://arxiv.org/abs/2305.16765 


图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除