LIRE: listwise reward enhancement for preference alignment

向作者提问

NEW

简介

最近，人们已经取得了巨大的进展，将大型语言模型（LLM）的生成与人类价值观相一致，以减轻有毒或无益的内容。利用来自人类反馈的强化学习（RLHF）证明是有效的，并被研究人员广泛采用。然而，实现RLHF是复杂的，其对超参数的敏感性使得实现稳定性和可扩展性具有挑战性。此外，现有的优先级对齐方法主要集中在两两比较上，对多响应场景的探索有限，因此忽略了候选池中的潜在丰富性。出于以上原因，我们提出了一种新的方法：用于偏好对齐的列表式奖励增强（LIRE），这是一种基于梯度的奖励优化方法，将多个响应的离线奖励合并到一个流畅的列表框架中，从而在训练期间消除了在线采样的需要。LIRE易于实现，需要最少的参数调整，并且与成对范例相契合，自然地扩展到多响应场景。此外，我们引入了一种自我增强算法，旨在在训练期间逐步改进奖励。我们的实验表明，LIRE在对话和摘要任务的几个基准测试中始终优于现有方法，并具有很好的可转移性，使用代理奖励模型和人类注释者进行评估。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决利用强化学习从人类反馈中提高大型语言模型的价值对齐的问题。现有方法主要集中在成对比较上，缺乏对多个响应的探索，因此忽略了候选池中的潜在丰富性。
关键思路

论文提出了一种名为LIRE的新方法，它是一种基于梯度的奖励优化方法，将多个响应的离线奖励纳入流畅的列表框架中，从而在训练期间消除了在线采样的需要。LIRE易于实现，需要最小的参数调整，可以无缝地与成对范例相匹配，同时自然地扩展到多响应场景。
其它亮点

论文提出了一种新方法，LIRE，用于解决大型语言模型的价值对齐问题。LIRE在多个对话和总结任务的基准测试中表现出比现有方法更好的性能，并且具有良好的可转移性。论文还介绍了一种自我增强算法，旨在在训练期间逐步优化奖励。实验设计合理，使用了多个数据集，并且提供了开源代码。
相关研究

最近的相关研究包括：“Learning from Human Preferences via Pareto Smoothed Reward Learning”、“Preference-based Reinforcement Learning: A Comprehensive Survey and Recent Advances”等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问