Deep Bayesian Active Learning for Preference Modeling in Large Language Models

简介

利用人类偏好来引导大型语言模型（LLMs）的行为在近年来取得了显著的成功。然而，数据选择和标记仍然是这些系统的瓶颈，尤其是在大规模情况下。因此，选择最具信息量的点以获取人类反馈可能会大大降低偏好标记的成本，并释放LLMs的进一步发展。贝叶斯主动学习提供了一个有原则的框架来解决这个挑战，并在不同的环境中取得了显著的成功。然而，以前尝试将其用于偏好建模的尝试没有达到预期。在这项工作中，我们发现天真的认识不确定性估计会导致获取冗余样本。我们通过提出面向偏好建模的贝叶斯主动学习者（BAL-PM）来解决这个问题，这是一种新颖的随机获取策略，不仅针对偏好模型中的高认识不确定性点，而且还在由所使用的LLM张成的特征空间中寻求获取的提示分布的最大熵。值得注意的是，我们的实验表明，BAL-PM需要两个流行的人类偏好数据集中的偏好标签数量减少33％至68％，并且超过了以前的随机贝叶斯获取策略。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

如何在人类偏好建模中降低数据标注的成本？
关键思路

提出了一种新的贝叶斯主动学习策略BAL-PM，不仅考虑偏差不确定性，还通过最大化特征空间中获取的提示分布的熵来选择最具信息量的样本点。
其它亮点

BAL-PM在两个常用的人类偏好数据集中比其他贝叶斯主动学习策略需要的标注数量少33％至68％。实验结果表明BAL-PM可以在人类偏好建模中降低数据标注的成本，同时提高模型的性能。
相关研究

与之前的人类偏好建模相关的研究有：Preference-based Reinforcement Learning with Minimal User Feedback, Active Preference Learning with Discrete Choice Data, Active Learning for Pairwise Comparisons: An Overview

Deep Bayesian Active Learning for Preference Modeling in Large Language Models

提问交流

提问交流