【标题】Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization

【作者团队】Rajkumar Ramamurthy, Prithviraj Ammanabrolu, Kianté Brantley, Jack Hessel等

【发表日期】2022.10.3

【论文链接】https://arxiv.org/pdf/2210.01241.pdf

【推荐理由】本文解决了将预训练的大型语言模型 (LM) 与人类偏好对齐的问题。如果将文本生成视为一个顺序决策问题,那么强化学习 (RL) 似乎是一个自然的概念框架。然而,使用 RL 进行基于 LM 的生成面临着经验挑战,包括由于组合动作空间导致的训练不稳定性,以及缺乏为 LM 对齐定制的开源库和基准。本文首先介绍了一个开源模块化库 RL4LMs,用于使用 RL 优化语言生成器。该库由在线策略 RL 算法组成,可用于训练 HuggingFace 库中具有任意奖励函数的LM。接下来,提出了GRUE基准,这是一组 6 种语言生成任务,这些任务不是由目标字符串监督,而是由捕获人类偏好的自动测量的奖励函数监督。GRUE 是首个排行榜样式评估用于 NLP 任务的 RL 算法。最后,介绍了一种易于使用、高性能的 RL 算法,NLPO,该算法学习有效地减少语言生成中的组合动作空间。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除