Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives

简介

对于对齐大型语言模型（LLMs），之前的研究利用人类反馈的强化学习（RLHF）或直接偏好优化（DPO）的变体。虽然DPO提供了一个基于最大似然估计的简单框架，但它在调整语言模型以轻松最大化非可微和非二进制目标方面存在妥协，这些目标符合LLM设计者的偏好（例如使用更简单的语言或最小化特定类型的有害内容）。这些可能既不符合用户偏好，也可能无法通过二进制偏好数据轻松捕捉。为了利用DPO的简单性和性能以及RL的通用性，我们提出了一种DPO和RLHF之间的混合方法。通过对DPO的隐式奖励分解进行简单的增强，我们允许使用离线RL来调整LLMs以最大化一组任意辅助奖励。所提出的方法，混合偏好优化（HPO），展示了有效地推广到用户偏好和辅助设计目标，同时在一系列具有挑战性的基准和模型大小上保持对齐性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决对大型语言模型进行对齐的问题，同时最大化非可微和非二元目标，以满足LLM设计者的偏好。
关键思路

论文提出了一种混合优化方法，将DPO和RLHF相结合，通过简单的奖励分解增强DPO的隐式奖励，以实现离线RL来最大化一组任意辅助奖励。
其它亮点

该方法能够有效地推广到用户偏好和辅助设计者目标，同时在一系列具有挑战性的基准测试和模型大小上保持对齐性能。实验使用了多个数据集，并提供了开源代码。
相关研究

在最近的相关研究中，使用RLHF或DPO进行LLM对齐的方法已经被提出。

Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives

提问交流

提问交流