RLSF: Reinforcement Learning via Symbolic Feedback

2024年05月26日
  • 简介
    近年来,大型语言模型(LLM)对人工智能的各个子领域产生了巨大影响,尤其是对自然语言理解任务的影响。然而,普遍认为当前LLM的逻辑推理能力最多只能算是片段化的(即在某些问题实例上表现良好,但在其他问题上则表现极差)。虽然传统的LLM微调方法(例如使用人类反馈的方法)在一定程度上解决了这个问题,但它们存在许多问题,包括不可靠的黑盒奖励模型、收集偏好数据的困难和稀疏的标量奖励值等。 为了解决这些挑战,我们提出了一种新的训练/微调范式,称为通过符号反馈的强化学习(RLSF),旨在增强LLM的推理能力。在RLSF设置中,被训练/微调的LLM被视为强化学习代理,而环境可以访问推理或领域知识工具(例如求解器、代数系统)。在RLSF中,这些推理工具可以通过多项式大小的证明(例如证明)向LLM提供反馈,以描述LLM生成的对象与某些正确性规范的错误。RLSF基于证书生成的符号工具的能力,使得LLM能够获得合理的微观(标记级别)奖励信号,并因此解决了上述传统奖励模型的局限性。通过广泛的评估,我们展示了我们基于RLSF的LLM微调在两个不同的应用程序上(即从自然语言伪代码到编程语言(C++)的程序合成和解决24点游戏)优于传统方法。
  • 图表
  • 解决问题
    本论文旨在提高大型语言模型(LLM)的逻辑推理能力,通过提供符号反馈(如证明)来训练和微调LLM,以解决传统LLM训练方法中存在的问题,如黑匣子奖励模型、数据收集困难和稀疏标量奖励值等。
  • 关键思路
    论文提出了一种新的训练/微调范式,称为通过符号反馈的强化学习(RLSF),该方法将LLM视为RL代理,允许环境通过推理或领域知识工具(如求解器、代数系统)提供反馈,以提高LLM的推理能力,并通过多项式大小的证书(如证明)向LLM提供有关错误的信息,从而提供了一种新的奖励模型。
  • 其它亮点
    通过广泛的评估,论文表明基于RLSF的LLM微调在程序合成和解决24点游戏等应用上优于传统方法。此外,论文还介绍了基于RLSF的训练方法的实现细节和开源代码,并讨论了未来研究方向。
  • 相关研究
    最近的相关研究包括使用不同的RL算法进行LLM微调,以及使用证明来评估LLM的推理能力。其中一些研究的论文标题包括“Improving Language Understanding by Generative Pre-Training”和“On the Evaluation of Machine Reading Comprehension Systems”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论