- 简介当使用语言模型(LM)时,用户经常期望模型在各种任务中遵循一组行为准则,例如在避免有害或有偏见的语言的同时产生有见地的内容。将这些原则灌输到模型中可能需要大量资源和技术挑战,通常需要人类偏好标签或示例。我们介绍了SAMI,一种教授预训练的LM遵循行为准则的方法,不需要任何偏好标签或演示。SAMI是一种迭代算法,通过微调预训练的LM来增加给定数据集查询时宪法和自动生成的响应之间的条件互信息。在单轮对话和摘要中,经过SAMI训练的mistral-7b模型的胜率在66%到77%之间,表现优于初始预训练模型。令人惊讶的是,在单轮对话中,它还超过了指令微调基线(mistral-7b-instruct),胜率在55%到57%之间。SAMI需要一个“原则编写器”模型;为了避免依赖于更强的模型,我们进一步评估了使用弱指令微调模型(mistral-7b-instruct)编写的宪法对齐强预训练模型(mixtral-8x7b)。经过SAMI训练的mixtral-8x7b模型表现优于初始模型和指令微调模型,在摘要中实现了65%的胜率。我们的结果表明,预训练的LM可以学习遵循宪法,而不需要使用偏好标签、演示或人类监督。
-
- 图表
- 解决问题本论文旨在提出一种方法,教授预训练语言模型遵循行为准则,而不需要任何偏好标签或演示。这个方法是否能够有效地提高模型的表现?
- 关键思路SAMI是一种迭代算法,通过微调预训练的语言模型,增加给定数据集的查询和自动生成的响应之间的条件互信息,从而教授模型遵循行为准则。该方法不需要任何人类监督或偏好标签。
- 其它亮点实验结果表明,经过SAMI训练的模型在单轮对话和摘要上的表现优于初始预训练模型,并且在单轮对话方面超过了指令微调基线。此外,SAMI还可以使用弱指令微调模型编写的宪法来对齐强预训练模型,从而进一步提高模型的表现。论文还提供了开源代码。
- 最近在这个领域中,也有一些相关的研究,例如使用偏好标签或演示来教授模型遵循行为准则。相关论文包括《Learning to Generate Personalized Out-of-Domain Utterances with Encoder-Decoders and Entropy Regularization》和《Controllable Invariance through Adversarial Feature Learning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流