Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning

简介

强化学习从人类反馈中学习（RLHF）是一种强大的范例，可以将基础模型与人类价值和偏好对齐。然而，当前的RLHF技术无法考虑到不同人类个体偏好的自然差异。当这些差异出现时，传统的RLHF框架只是对它们进行平均处理，导致不准确的奖励和对个别子群体的表现较差。为了解决多元对齐的需求，我们开发了一类多模态RLHF方法。我们提出的技术基于潜变量的公式 - 推断新的用户特定潜变量，并在此潜变量的条件下学习奖励模型和策略，而不需要额外的用户特定数据。虽然在概念上很简单，但我们表明，在实践中，这种奖励建模需要仔细考虑模型架构和奖励缩放的算法问题。为了在经验上验证我们提出的技术，我们首先展示了它可以提供一种应对模拟控制问题的欠规范的方法，推断和优化用户特定的奖励函数。接下来，我们进行了关于多元语言数据集的实验，代表了不同用户偏好，并展示了改进的奖励函数准确性。我们还展示了这种概率框架在测量不确定性和积极学习用户偏好方面的好处。这项工作使得从具有不同偏好的多元人群中学习成为可能，这是从机器人学习到基础模型对齐等问题中自然出现的重要挑战。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题的多样性：当前的RLHF技术不能考虑不同人群之间的自然差异，从而导致对于个体子群的奖励不准确，表现不佳。本文旨在提出一种多模态RLHF方法，以解决这个问题。
关键思路

本文提出了一种基于潜变量的RLHF方法，通过学习用户特定的潜变量和基于该变量的奖励模型和策略，来实现学习用户多样化的偏好和价值观。
其它亮点

本文的方法可以用于模拟控制问题和自然语言处理，实验结果表明，多模态RLHF方法可以提高奖励函数的准确性和测量不确定性的能力。
相关研究

近年来，RLHF技术已经成为人工智能领域的研究热点。与本文相关的研究包括《Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications》和《Inverse Reinforcement Learning: A Survey》等。

Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning

提问交流

提问交流