- 简介这个奖励模型的成功在于能够区分那些安全性微妙差异的回答,这严重依赖于高质量的偏好数据集,该数据集应该捕捉有害和无害回答的细微差别。这促使我们需要开发一个涉及偏好边界的数据集,准确地量化一个回答相对于另一个回答的无害程度。在本文中,我们迈出了第一步,提出了一个有效且成本效益高的框架,以促进偏好数据集的边界增强开发。我们的框架名为Legend,利用表示工程来注释偏好数据集。它构建了LLM嵌入空间内表示安全性的特定方向。通过利用这个安全方向,Legend可以利用沿着这个方向配对回答的语义距离来自动注释边界。我们在奖励建模和LLM的无害对齐方面实验证明了我们的有效性。Legend的效率也很突出,只需要推理时间而不需要额外的训练。这种效率使得它更容易实现和扩展,使Legend在将LLM与安全对话对齐的实际应用中特别有价值。
-
- 图表
- 解决问题提高对话安全性的数据集不够细致,需要开发一种有效且经济的框架来促进数据集的发展。
- 关键思路提出一种名为Legend的框架,利用表示工程来注释偏好数据集,通过构建LLM嵌入空间中表示安全的具体方向,利用这个安全方向,Legend可以自动注释成对响应沿着这个方向的语义距离,以注释边距。
- 其它亮点实验证明Legend在奖励建模和LLM的无害对齐方面的有效性。Legend的效率也很高,只需要推理时间而不需要额外的训练。
- 最近在这个领域中,还有一些相关的研究,如“Learning to Learn from Weak Supervision by Full Supervision”和“Language Models are Few-Shot Learners”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流