A Survey on Human Preference Learning for Large Language Models

2024年06月17日
  • 简介
    最近大规模语言模型(LLM)的广泛应用主要依赖于通过偏好学习将越来越强大的基础模型与人类意图对齐,从而增强了LLM在各种情境下的适用性和有效性。尽管已经进行了许多相关研究,但对于人类偏好如何被引入LLM的视角仍然有限,这可能阻碍了对人类偏好和LLM之间关系的深入理解以及实现它们的局限性。在本调查中,我们从偏好中心的角度回顾了探索LLM的人类偏好学习的进展,包括偏好反馈的来源和格式、偏好信号的建模和使用以及对齐LLM的评估。我们首先根据数据来源和格式对人类反馈进行分类。然后,我们总结了用于人类偏好建模的技术,并比较了不同模型学派的优缺点。此外,我们根据利用人类偏好信号的目标提供了各种偏好使用方法。最后,我们总结了一些用于评估LLM与人类意图对齐的流行方法,并讨论了我们对于LLM人类意图对齐的展望。
  • 图表
  • 解决问题
    人类偏好如何被引入到大型语言模型中仍存在限制,本文从偏好中心的角度回顾了人类偏好学习在大型语言模型中的进展。
  • 关键思路
    本文从数据源和格式、偏好信号建模和使用、以及模型评估三个方面系统总结了人类偏好学习在大型语言模型中的应用。
  • 其它亮点
    本文总结了不同的偏好信号建模方法,并比较了它们的优缺点。此外,本文还介绍了各种偏好信号使用方法,以及对齐大型语言模型的评估方法。
  • 相关研究
    最近的相关研究包括“Improving Language Understanding by Generative Pre-Training”和“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论