Aligning to Thousands of Preferences via System Message Generalization

2024年05月28日
  • 简介
    虽然人类天生具有多样的价值观,但目前大型语言模型(LLM)的对齐方法通常假定将LLMs与大众的偏好对齐是最优的。采用更个性化的LLM对齐方法的一个主要挑战是其缺乏可扩展性,因为它需要反复获取偏好数据并为每个人的偏好训练新的奖励模型和LLMs。为了应对这些挑战,我们提出了一种新的范式,即用户在系统消息中指定他们最看重的内容,引导LLM的生成行为更好地与用户的意图对齐。然而,这种方法的一个朴素应用并不容易,因为LLMs通常是在统一的系统消息(例如,“您是一个有用的助手”)上进行训练的,这限制了它们对多样化、未知的系统消息的推广能力。为了改善这种推广能力,我们创建了多面集合(Multifaceted Collection),这是一个偏好数据集,包含192k个超出通用有益和无害之外的价值观组合,涵盖了65k个用户指令。使用这个数据集,我们训练了一个名为Janus的7B LLM,并在5个基准测试(AlpacaEval 2.0、FLASK、Koala、MT-Bench和Self-Instruct)的921个提示中进行测试,添加了反映用户偏好的各种未知系统消息。Janus在与Mistral 7B Instruct v0.2、GPT-3.5 Turbo和GPT-4的比赛中分别实现了75.2%、72.4%和66.4%的胜平率。出乎意料的是,在三个专注于响应有用性的基准测试(AlpacaEval 2.0、MT-Bench、Arena Hard Auto v0.1)中,Janus也以+4.0%、+0.1%、+3.0%的优势超越了LLaMA 3 8B Instruct,凸显出使用广泛的系统消息进行训练也可以增强对大众偏好的对齐。我们的代码、数据集、基准测试和模型可在https://github.com/kaistAI/Janus上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决大型语言模型对用户个性化偏好的适配问题,提出了一种用户指定价值观的方法,但是这种方法的普适性和可扩展性都存在挑战。
  • 关键思路
    论文提出了一种新的范式,即用户在系统消息中指定自己最看重的价值观,从而引导大型语言模型生成更符合用户意图的内容。为了提高模型的泛化能力,论文使用了一个包含多种价值观的数据集进行训练。
  • 其它亮点
    论文使用了一个包含192k种价值观组合的数据集Multifaceted Collection进行训练,并在5个基准测试集上进行了测试。研究表明,使用多样化的系统消息进行训练可以提高模型的普适性和个性化适配能力。实验结果表明,该方法在多个基准测试集上表现优异,代码、数据集和模型都已开源。
  • 相关研究
    最近的相关研究包括Toward Personalized Language Models for Truly Personalized Conversational Agents (AAAI 2021)和Personalized Response Generation with Attentive Multi-Task Learning (EMNLP 2020)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问