Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels

向作者提问

NEW

简介

当使用语言模型（LM）时，用户经常期望模型在各种任务中遵循一组行为准则，例如在避免有害或有偏见的语言的同时产生有见地的内容。将这些原则灌输到模型中可能需要大量资源和技术挑战，通常需要人类偏好标签或示例。我们介绍了SAMI，一种教授预训练的LM遵循行为准则的方法，不需要任何偏好标签或演示。SAMI是一种迭代算法，通过微调预训练的LM来增加给定数据集查询时宪法和自动生成的响应之间的条件互信息。在单轮对话和摘要中，经过SAMI训练的mistral-7b模型的胜率在66％到77％之间，表现优于初始预训练模型。令人惊讶的是，在单轮对话中，它还超过了指令微调基线（mistral-7b-instruct），胜率在55％到57％之间。SAMI需要一个“原则编写器”模型；为了避免依赖于更强的模型，我们进一步评估了使用弱指令微调模型（mistral-7b-instruct）编写的宪法对齐强预训练模型（mixtral-8x7b）。经过SAMI训练的mixtral-8x7b模型表现优于初始模型和指令微调模型，在摘要中实现了65％的胜率。我们的结果表明，预训练的LM可以学习遵循宪法，而不需要使用偏好标签、演示或人类监督。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种方法，教授预训练语言模型遵循行为准则，而不需要任何偏好标签或演示。这个方法是否能够有效地提高模型的表现？
关键思路

SAMI是一种迭代算法，通过微调预训练的语言模型，增加给定数据集的查询和自动生成的响应之间的条件互信息，从而教授模型遵循行为准则。该方法不需要任何人类监督或偏好标签。
其它亮点

实验结果表明，经过SAMI训练的模型在单轮对话和摘要上的表现优于初始预训练模型，并且在单轮对话方面超过了指令微调基线。此外，SAMI还可以使用弱指令微调模型编写的宪法来对齐强预训练模型，从而进一步提高模型的表现。论文还提供了开源代码。
相关研究

最近在这个领域中，也有一些相关的研究，例如使用偏好标签或演示来教授模型遵循行为准则。相关论文包括《Learning to Generate Personalized Out-of-Domain Utterances with Encoder-Decoders and Entropy Regularization》和《Controllable Invariance through Adversarial Feature Learning》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问