Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering

简介

大型语言模型（LLMs）可以在其参数中存储大量的事实知识。然而，它们的参数知识可能与上下文提供的信息相冲突——这种现象被称为“上下文记忆知识冲突”，可能导致模型出现不良行为，如依赖过时或错误的信息。通过分析LLMs的内部激活，我们发现它们可以在中间层内部记录知识冲突的信号。这些信号使我们能够检测知识冲突是否发生，并使用推理时干预策略来解决它。在这项工作中，我们提出了\textsc{SpARE}，这是一种无需训练的表示工程方法，利用预训练的稀疏自编码器（SAEs）来控制LLMs的知识选择行为。\textsc{SpARE}识别出控制知识选择行为的功能特征，并在推理时将这些特征应用于编辑LLMs的内部激活。我们的实验结果表明，\textsc{SpARE}可以有效控制使用任一知识来源来解决开放领域问答任务中的知识冲突，超越了现有的表示工程方法（提高10%）以及对比解码方法（提高15%）。
图表
解决问题

论文试图解决大型语言模型（LLMs）在处理上下文记忆知识冲突时的不当行为问题，例如依赖过时或错误的信息。这是一个在LLM应用中逐渐凸显的问题。
关键思路

论文的关键思路是通过分析LLM内部激活，检测知识冲突信号，并利用预训练的稀疏自编码器（SAE）在推理时干预这些信号，以控制知识选择行为。这种方法是训练无关的，能够在不重新训练模型的情况下调整其行为。
其它亮点

论文通过实验展示了SpARE方法的有效性，能够显著提高处理知识冲突的能力，超越现有方法。实验设计包括开放域问答任务，使用了多个数据集，并且有开源代码支持进一步的研究。未来可以探索SpARE在其他任务和模型中的应用。
相关研究

近期相关研究包括：1. 使用对比解码方法解决知识冲突；2. 通过微调LLMs来增强其上下文适应能力；3. 探索多模态输入对LLM知识选择的影响。相关论文如《Contrastive Decoding for Mitigating Knowledge Conflicts in Large Language Models》、《Fine-tuning Large Language Models for Context-aware Knowledge Selection》等。

Steering Knowledge Selection Behaviours in LLMs via SAE-Based Representation Engineering

评论