$β$-DPO: Direct Preference Optimization with Dynamic $β$

简介

直接偏好优化（DPO）已成为一种引人注目的方法，用于训练大型语言模型（LLM）以符合人类偏好。然而，DPO的性能对其权衡参数$\beta$的微调以及偏好数据的质量非常敏感。我们分析了$\beta$和数据质量对DPO的影响，发现最佳$\beta$值随成对数据的信息量而变化。为了解决静态$\beta$值的局限性，我们引入了一种新的框架，该框架在批处理级别上动态校准$\beta$，并考虑数据质量因素。此外，我们的方法还包括$\beta$引导的数据过滤，以防止异常值的影响。通过实证评估，我们证明了我们的动态$\beta$调整技术显著提高了DPO在各种模型和数据集上的性能，为将LLM与人类反馈对齐提供了更强大和适应性更强的训练范式。代码可在\url{https://github.com/junkangwu/beta-DPO}上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决Direct Preference Optimization（DPO）在训练大型语言模型（LLMs）时对其交易参数β的微调以及对偏好数据质量的敏感性问题。
关键思路

本文提出了一种动态校准β的方法，该方法根据数据质量考虑在批处理级别上动态校准β，并结合β引导数据过滤来防止异常值的影响。
其它亮点

本文的实验表明，动态β调整技术显著提高了DPO在各种模型和数据集上的性能，为使LLMs与人类反馈保持一致提供了更加强大和适应性的训练范例。作者提供了代码：https://github.com/junkangwu/beta-DPO。
相关研究

与此相关的最近研究包括：1）“Preference-Based Reinforcement Learning: A Comprehensive Survey”；2）“Preference-Based Policy Learning in Robotics: A Review”；3）“Preference Elicitation and Aggregation in Recommender Systems”等。

$β$-DPO: Direct Preference Optimization with Dynamic $β$

提问交流

提问交流