A Generalized Acquisition Function for Preference-based Reward Learning

简介

偏好奖励学习是一种流行的技术，用于教授机器人和自主系统如何执行任务以符合人类用户的要求。先前的研究表明，主动合成偏好查询以最大化有关奖励函数参数的信息增益可以提高数据效率。信息增益标准侧重于精确识别奖励函数的所有参数。这可能会浪费资源，因为许多参数可能导致相同的奖励，许多奖励可能导致下游任务中的相同行为。相反，我们展示了可以优化学习奖励函数，直到行为等价类，例如诱导相同的行为排名、选择分布或其他相关定义，以确定两个奖励相似的方式。我们引入了一个可捕捉这种相似性定义的可行框架。我们在合成环境、具有领域转移的辅助机器人环境以及具有真实数据集的自然语言处理问题中进行的实验表明，我们的查询方法优于最先进的信息增益方法。
图表
解决问题

优化偏好学习中的奖励函数参数，使其在行为等价类中学习，从而提高数据效率。
关键思路

通过定义奖励函数参数的行为等价类，优化偏好学习中的奖励函数参数，从而提高数据效率。
其它亮点

论文提出的方法在合成环境、辅助机器人环境和自然语言处理问题中得到了验证。实验结果表明，该方法优于现有的信息增益方法。
相关研究

相关研究包括Preference Elicitation、Active Learning、Reward Learning等。