Jointly Reinforcing Diversity and Quality in Language Model Generations

向作者提问

NEW

简介

在对大型语言模型（LM）进行后续训练时，通常会以牺牲多样性为代价来优先提升准确性和有用性。这种做法带来一种矛盾：尽管后续训练能够提高回复质量，但它也让输出的分布更加集中，限制了模型在需要创造力和探索性的任务（如头脑风暴、故事创作或问题解决）中的应用潜力。我们提出了一种“多样性感知的强化学习”框架（Diversity-Aware Reinforcement Learning，简称 DARLING），同时优化回复质量和语义多样性来应对这一挑战。DARLING 的核心在于引入了一个可学习的配分函数，用于衡量超越表面词汇变化的多样性。这一多样性信号随后在在线强化学习过程中与质量奖励相结合，促使模型生成既高质量又具差异性的输出。在多个模型族和不同规模的实验中，DARLING 展现出良好的泛化能力，适用于两类任务场景：不可验证任务（如指令跟随和创意写作）和可验证任务（如竞赛数学题）。在第一类任务的五个基准测试中，DARLING 始终优于仅优化质量的强化学习基线方法，生成的输出在质量和新颖性方面均更优。在第二类任务中，DARLING 在 pass@1（解题质量）和 pass@k（解题多样性）指标上均有更好表现。尤为引人注目的是，明确优化多样性能够激发在线强化学习过程中的探索行为，从而产生质量更高的回复。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

论文旨在解决大型语言模型（LLMs）在后训练过程中过度追求准确性和有用性，导致输出多样性下降的问题。这种趋势限制了LLMs在需要创造力和探索能力的任务（如头脑风暴、故事创作和问题解决）中的表现。这是一个相对较新的研究问题，因为当前的后训练方法较少关注多样性。
关键思路

论文提出了一种名为DARLING（Diversity-Aware Reinforcement Learning）的框架，通过在强化学习过程中同时优化响应质量和语义多样性来解决上述问题。其核心创新在于引入了一个学习到的划分函数（partition function），用于衡量超越表面词汇变化的多样性，并将该多样性信号与质量奖励相结合。这种方法不同于传统的仅优化质量的RL方法，强调了多样性和质量的联合优化。
其它亮点

1. DARLING在多个模型家族和规模上进行了实验，验证了其在非验证性任务（如指令遵循和创意写作）以及验证性任务（如竞赛数学）中的有效性。 2. 实验结果显示，DARLING在五个非验证性任务基准上均优于仅优化质量的基线方法，生成的输出在质量和新颖性上均有提升。 3. 在验证性任务中，DARLING在pass@1（解的质量）和pass@k（解的多样性）上均表现更优。 4. 显式优化多样性被证明能够促进在线强化学习的探索，从而提升响应质量。 5. 论文强调了多样性在强化学习中的重要性，为未来的研究提供了新的方向。
相关研究

1. Zhang et al., 'Optimizing Language Model Prompting via Reinforcement Learning with Human Feedback' (2023) 2. Ouyang et al., 'Training language models to follow instructions with human feedback' (2022) 3. Wang et al., 'Diverse Beam Search: A Way to Reasonable Diversity in Sequence Generation' (2021) 4. Li et al., 'On the Diversity of Answer Generation: A Contrastive Learning Approach' (2022) 5. Holtzman et al., 'The Curious Case of Neural Text Degeneration' (2020)

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问