Aligning Large Language Models with Representation Editing: A Control Perspective

简介

将大型语言模型（LLMs）与人类目标对齐对于实际应用至关重要。然而，为了对齐，微调LLMs经常遭受不稳定的训练，并需要大量的计算资源。测试时间对齐技术，例如提示和引导解码，不会修改基础模型，它们的性能仍然取决于原始模型的能力。为了解决这些挑战，我们提出通过表示编辑来对齐LLMs。我们方法的核心是将预训练的自回归LLM视为离散时间随机动态系统。为了实现特定目标的对齐，我们将外部控制信号引入到该语言动态系统的状态空间中。我们根据Bellman方程直接在隐藏状态上训练价值函数，使得在测试时间可以通过梯度优化获得最优控制信号。我们的实验表明，我们的方法优于现有的测试时间对齐技术，同时与微调方法相比，需要更少的资源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何通过编辑表示来对齐大型语言模型与人类目标？
关键思路

将预训练的自回归语言模型视为离散时间随机动态系统，通过引入外部控制信号来对齐特定目标，训练值函数直接在隐藏状态上，使用贝尔曼方程进行梯度优化，以获得测试时的最优控制信号。
其它亮点

该方法在测试时比现有的测试时间对齐技术表现更好，同时与微调方法相比，需要更少的资源。实验表明，该方法在多个基准数据集上都取得了最先进的结果。
相关研究

最近的相关研究包括使用提示和引导解码等测试时间对齐技术，以及使用微调方法来对齐大型语言模型。

Aligning Large Language Models with Representation Editing: A Control Perspective

提问交流

提问交流