FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

2025年02月26日
  • 简介
    对大型语言模型(LLM)的有效个性化对于虚拟助手和内容推荐等广泛的用户交互应用程序至关重要。受LLM强大上下文学习能力的启发,我们提出了少样本偏好优化(FSPO),该方法将奖励建模重新定义为元学习问题。在此框架下,LLM通过来自用户的少量标注偏好快速适应用户,为用户构建个性化的奖励函数。此外,由于现实世界中的偏好数据稀缺且难以大规模收集,我们提出了精心设计的选择来构建用于个性化的合成偏好数据集,使用公开可用的LLM生成超过100万个合成的个性化偏好。特别地,为了成功从合成数据迁移到真实用户,我们发现数据必须表现出高度的多样性和连贯、自洽的结构。我们在三个领域中评估了FSPO的个性化开放式生成效果,这些领域包括:电影评论、基于教育背景的教学适应以及一般性问答,并进行了受控的人类研究。总体而言,FSPO在为合成用户生成个性化响应时平均达到了87%的Alpaca Eval胜率,在开放式问答中与真实人类用户的交互中达到了72%的胜率。
  • 图表
  • 解决问题
    该论文试图解决如何有效个性化大型语言模型(LLM)的问题,以适应虚拟助手和内容推荐等用户交互应用的需求。这是一个重要的研究问题,因为现有的LLM虽然在通用任务上表现出色,但在个性化方面仍有不足。
  • 关键思路
    论文提出了Few-Shot Preference Optimization (FSPO),将奖励建模视为一个元学习问题。通过这种方式,LLM可以通过少量用户的标注偏好快速适应并构建个性化的奖励函数。此外,为了应对现实世界中偏好数据稀缺的问题,研究者们还设计了合成偏好数据集,生成了超过100万个合成的个性化偏好。
  • 其它亮点
    实验设计包括对三个不同领域的个性化开放生成任务进行评估:电影评论、基于教育背景的教学适应和一般性问答。研究使用了多达1,500个合成用户的数据,并进行了受控的人类研究。值得注意的是,FSPO在生成符合合成用户偏好的响应方面达到了87%的Alpaca Eval胜率,在真实人类用户的开放性问题回答中也达到了72%的胜率。此外,研究强调了合成数据需要具备高多样性和自洽结构以成功迁移到真实用户。目前尚不清楚是否有开源代码发布。
  • 相关研究
    最近在这个领域内的相关研究还包括其他针对个性化LLM的方法,例如'Personalizing Pre-trained Language Models via Meta-Learning'和'Adapting Large Language Models to User Preferences with Few-shot Learning'。这些研究都试图通过不同的技术手段来增强LLM的个性化能力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论