- 简介语言模型容易受到偏见、谄媚、后门和其他倾向的影响,导致对输入上下文的回应不忠实。解释语言模型的内部状态可以帮助监控和纠正不忠实的行为。我们假设语言模型在潜在的世界模型中表示它们的输入上下文,并试图从激活中提取这个潜在的世界状态。我们使用“命题探针”来完成这个任务,这些探针将令牌组合探测词汇信息并将其绑定到表示世界状态的逻辑命题中。例如,给定输入上下文“Greg是一名护士。Laura是一名物理学家。”,我们从模型的激活中解码出命题“WorksAs(Greg, nurse)”和“WorksAs(Laura, physicist)” 。关键在于识别一个“绑定子空间”,在这个空间中,绑定的令牌具有高相似度(如“Greg”和“nurse”),而未绑定的令牌则没有(如“Greg”和“physicist”)。我们在有限的谓词和属性的封闭世界环境中验证了命题探针。尽管是在简单的模板化上下文中训练的,但命题探针可以推广到被重写为短故事并翻译成西班牙语的上下文。此外,我们发现,在三种语言模型对输入上下文回应不忠实的情况下——提示注入、后门攻击和性别偏见——解码出的命题仍然是忠实的。这表明,语言模型通常编码了一个忠实的世界模型,但解码时不忠实,这促使我们寻找更好的可解释性工具来监测语言模型。
- 图表
- 解决问题如何监控和纠正语言模型的不忠实行为?
- 关键思路使用propositional probes从语言模型的激活中提取潜在的世界模型,通过组合探测标记的词汇信息并将其绑定到逻辑命题中表示世界状态,验证propositional probes在有限谓词和属性的封闭世界设置中的有效性,并发现propositional probes在三种情况下都能保持忠实:prompt injections、backdoor attacks、gender bias
- 其它亮点实验表明,propositional probes能够泛化到被重新编写为短故事并翻译为西班牙语的语境中,并且该方法提供了一种监测语言模型的内部状态的方式,以便更好地纠正不忠实的响应。
- 最近的相关研究包括:BERT、GPT-2和XLNet等语言模型的解释性研究,以及其他探测语言模型内部状态的方法(如probing和introspection)
沙发等你来抢
去评论
评论
沙发等你来抢