A Survey on Human Preference Learning for Large Language Models

简介

最近大规模语言模型的快速发展很大程度上依赖于通过偏好学习将越来越强大的基础模型与人类意图相一致，从而增强LLM在各种场景下的适用性和有效性。尽管已经进行了许多相关研究，但对于人类偏好如何引入LLM的视角仍然有限，这可能阻碍了对人类偏好与LLM之间关系的更深入理解以及对它们的限制的认识。在本综述中，我们从偏好为中心的角度回顾了探索LLM的人类偏好学习的进展，包括偏好反馈的来源和格式、偏好信号的建模和使用以及对齐LLM的评估。我们首先根据数据来源和格式对人类反馈进行分类。然后，我们总结了人类偏好建模的技术，并比较了不同模型流派的优缺点。此外，我们介绍了按照利用人类偏好信号的目标分类的各种偏好使用方法。最后，我们总结了一些评估LLM与人类意图一致性的流行方法，并讨论了我们对LLM的人类意图对齐的展望。
图表
解决问题

探索人类偏好学习在大型语言模型中的应用，以提高模型的适用性和效果。
关键思路

从偏好中心的角度回顾探索人类偏好学习在大型语言模型中的应用，包括偏好反馈的来源和格式、偏好信号的建模和使用方法以及对齐LLMs的评估方法。
其它亮点

对人类偏好学习的探索进行了全面的回顾，涵盖了偏好反馈的来源和格式、偏好信号的建模和使用方法以及对齐LLMs的评估方法。论文提出了各种偏好建模和使用方法，并比较了不同模型的优缺点。此外，还总结了一些流行的对齐LLMs的评估方法。
相关研究

最近的相关研究包括：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。

A Survey on Human Preference Learning for Large Language Models

评论