- 简介直接偏好优化(DPO)已成为一种引人注目的方法,用于训练大型语言模型(LLM)以符合人类偏好。然而,DPO的性能对其权衡参数$\beta$的微调以及偏好数据的质量非常敏感。我们分析了$\beta$和数据质量对DPO的影响,发现最佳$\beta$值随成对数据的信息量而变化。为了解决静态$\beta$值的局限性,我们引入了一种新的框架,该框架在批处理级别上动态校准$\beta$,并考虑数据质量因素。此外,我们的方法还包括$\beta$引导的数据过滤,以防止异常值的影响。通过实证评估,我们证明了我们的动态$\beta$调整技术显著提高了DPO在各种模型和数据集上的性能,为将LLM与人类反馈对齐提供了更强大和适应性更强的训练范式。代码可在\url{https://github.com/junkangwu/beta-DPO}上获得。
-
- 图表
- 解决问题本文试图解决Direct Preference Optimization(DPO)在训练大型语言模型(LLMs)时对其交易参数β的微调以及对偏好数据质量的敏感性问题。
- 关键思路本文提出了一种动态校准β的方法,该方法根据数据质量考虑在批处理级别上动态校准β,并结合β引导数据过滤来防止异常值的影响。
- 其它亮点本文的实验表明,动态β调整技术显著提高了DPO在各种模型和数据集上的性能,为使LLMs与人类反馈保持一致提供了更加强大和适应性的训练范例。作者提供了代码:https://github.com/junkangwu/beta-DPO。
- 与此相关的最近研究包括:1)“Preference-Based Reinforcement Learning: A Comprehensive Survey”;2)“Preference-Based Policy Learning in Robotics: A Review”;3)“Preference Elicitation and Aggregation in Recommender Systems”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流