Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets

简介

这个奖励模型的成功在于能够区分那些安全性微妙差异的回答，这严重依赖于高质量的偏好数据集，该数据集应该捕捉有害和无害回答的细微差别。这促使我们需要开发一个涉及偏好边界的数据集，准确地量化一个回答相对于另一个回答的无害程度。在本文中，我们迈出了第一步，提出了一个有效且成本效益高的框架，以促进偏好数据集的边界增强开发。我们的框架名为Legend，利用表示工程来注释偏好数据集。它构建了LLM嵌入空间内表示安全性的特定方向。通过利用这个安全方向，Legend可以利用沿着这个方向配对回答的语义距离来自动注释边界。我们在奖励建模和LLM的无害对齐方面实验证明了我们的有效性。Legend的效率也很突出，只需要推理时间而不需要额外的训练。这种效率使得它更容易实现和扩展，使Legend在将LLM与安全对话对齐的实际应用中特别有价值。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高对话安全性的数据集不够细致，需要开发一种有效且经济的框架来促进数据集的发展。
关键思路

提出一种名为Legend的框架，利用表示工程来注释偏好数据集，通过构建LLM嵌入空间中表示安全的具体方向，利用这个安全方向，Legend可以自动注释成对响应沿着这个方向的语义距离，以注释边距。
其它亮点

实验证明Legend在奖励建模和LLM的无害对齐方面的有效性。Legend的效率也很高，只需要推理时间而不需要额外的训练。
相关研究

最近在这个领域中，还有一些相关的研究，如“Learning to Learn from Weak Supervision by Full Supervision”和“Language Models are Few-Shot Learners”。

Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets

提问交流

提问交流