KL-Regularized Reinforcement Learning is Designed to Mode Collapse

向作者提问

NEW

简介

人们普遍认为，优化反向KL散度会导致“模式寻找”行为，而优化前向KL散度则会带来“覆盖分布质量”的效果；如果目标是从多个不同模式中采样，通常更倾向于使用后者。然而，我们通过数学分析和实验表明，这种直觉并不一定适用于在强化学习中引入反向或前向KL正则化的情形（例如在语言模型中常见的做法）。实际上，选择反向还是前向KL决定了最优目标分布的类别，这类分布由正则化系数进行参数化。而对模式的覆盖程度主要取决于其他因素，例如正则化的强度，以及奖励与参考概率之间的相对尺度。此外，我们指出，常用的设置——如较低的正则化强度、相等的可验证奖励——往往会导致目标分布是单峰的，这意味着优化目标从构造上就缺乏多样性。基于这些洞察，我们设计了一种简单、可扩展且具有理论依据的算法。该方法仅对奖励幅度做出最小调整，却能够优化一个目标分布，使其在所有高质量采样模式上均具有较高的概率。实验结果表明，这一简单的改进能够在无需任何外部多样性信号的情况下，有效用于大语言模型和化学语言模型的后训练，显著提升解的质量与多样性；而此前直接使用前向或反向KL的方法在这种情况下均会失效。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图纠正一个在强化学习与生成模型（如大语言模型）中广泛接受的直觉：即使用前向KL散度正则化会带来多样性采样（mass covering），而反向KL则导致模式崩溃（mode seeking）。作者指出，这一经典直觉在实际的KL正则化强化学习设置中并不成立，尤其是在低正则化强度和奖励尺度不平衡的情况下，目标分布本质上是单峰的，导致多样性不足。这个问题虽非全新，但其在语言模型和化学分子生成等实际应用中的影响此前未被充分认识和纠正。
关键思路

论文的核心思想是：选择前向或反向KL正则化并不会直接决定模型是否覆盖多个模式，真正影响模式覆盖的是正则化强度、奖励尺度与参考分布概率之间的相对关系。通过理论分析和实验验证，作者表明，无论使用前向还是反向KL，只要调节这些参数，都可以得到多模态的目标分布。基于此，他们提出一种简单、可扩展且理论上有保证的方法，仅轻微调整奖励幅度，即可引导模型学习一个在所有高质量模式上具有高概率的多样化目标分布。
其它亮点

作者通过数学推导和实证实验验证了经典KL行为在RL设置下的失效；实验涵盖大语言模型（LLM）和化学语言模型（ChemLM），展示了方法在提升生成质量和多样性上的有效性；无需额外多样性信号或复杂架构修改；代码和细节虽未明确提及开源，但方法设计简洁，易于复现；值得深入的方向包括将该理论框架推广到更多序列生成任务、探索自适应调节奖励尺度机制，以及结合离线强化学习场景。
相关研究

1. Soft Actor-Critic Algorithms and Applications 2. Divergence Control in Reinforcement Learning: A Survey 3. Language Model Cascades 4. Training Verifiers to Solve Math Word Problems 5. Large Language Models as Optimizers 6. PAL: Program-aided Language Models 7. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问