Aligning Large Language Models with Representation Editing: A Control Perspective

简介

将大型语言模型（LLMs）与人类目标对齐对于实际应用至关重要。然而，为了对齐，对LLMs进行微调往往会遇到不稳定的训练，并需要大量的计算资源。测试时间对齐技术，如提示和引导解码，并不修改基础模型，它们的性能仍然取决于原始模型的能力。为了解决这些挑战，我们提出通过表示编辑来对齐LLMs。我们方法的核心是将预训练的自回归LLM视为离散时间随机动态系统。为了实现特定目标的对齐，我们将外部控制信号引入这种语言动态系统的状态空间中。我们根据Bellman方程直接在隐藏状态上训练价值函数，使得在测试时可以通过梯度优化来获得最优的控制信号。我们的实验表明，我们的方法优于现有的测试时间对齐技术，同时与微调方法相比需要更少的资源。
图表
解决问题

本论文旨在解决将大型语言模型与人类目标对齐的问题，提出了一种通过表示编辑实现对齐的方法。
关键思路

将预训练的自回归大型语言模型视为离散时间随机动态系统，通过在语言动态系统的状态空间中引入外部控制信号来实现特定目标的对齐。
其它亮点

该方法在测试时优于现有的测试时间对齐技术，同时与微调方法相比，需要更少的资源。实验使用了多个数据集，并提供了开源代码。
相关研究

相关研究包括“Prompting Techniques for Large Language Models”和“Guided Language Generation for Automated Fact-Checking”。

Aligning Large Language Models with Representation Editing: A Control Perspective

评论