- 简介将大型语言模型(LLMs)与人类目标对齐对于实际应用至关重要。然而,为了对齐,微调LLMs经常遭受不稳定的训练,并需要大量的计算资源。测试时间对齐技术,例如提示和引导解码,不会修改基础模型,它们的性能仍然取决于原始模型的能力。为了解决这些挑战,我们提出通过表示编辑来对齐LLMs。我们方法的核心是将预训练的自回归LLM视为离散时间随机动态系统。为了实现特定目标的对齐,我们将外部控制信号引入到该语言动态系统的状态空间中。我们根据Bellman方程直接在隐藏状态上训练价值函数,使得在测试时间可以通过梯度优化获得最优控制信号。我们的实验表明,我们的方法优于现有的测试时间对齐技术,同时与微调方法相比,需要更少的资源。
-
- 图表
- 解决问题如何通过编辑表示来对齐大型语言模型与人类目标?
- 关键思路将预训练的自回归语言模型视为离散时间随机动态系统,通过引入外部控制信号来对齐特定目标,训练值函数直接在隐藏状态上,使用贝尔曼方程进行梯度优化,以获得测试时的最优控制信号。
- 其它亮点该方法在测试时比现有的测试时间对齐技术表现更好,同时与微调方法相比,需要更少的资源。实验表明,该方法在多个基准数据集上都取得了最先进的结果。
- 最近的相关研究包括使用提示和引导解码等测试时间对齐技术,以及使用微调方法来对齐大型语言模型。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流