Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs

2024年06月28日
  • 简介
    强化学习在评估复杂游戏任务中的策略轨迹时面临挑战,因为设计全面而精确的奖励函数很困难。这种困难限制了在具有多种限制的游戏环境中广泛应用强化学习。基于偏好的强化学习(PbRL)提出了一个开创性的框架,利用人类偏好作为关键的奖励信号,从而避免了需要精心设计奖励的需求。然而,从人类专家那里获取偏好数据是昂贵和低效的,特别是在复杂限制条件下。为了解决这个挑战,我们提出了一个名为LLM4PG的LLM自动偏好生成框架,利用大型语言模型(LLMs)的能力来抽象轨迹、排名偏好,并重构奖励函数以优化条件策略。在具有复杂语言限制的任务上的实验表明,我们的LLM启用的奖励函数的有效性,加速了强化学习的收敛,并克服了由于原始奖励结构下进展缓慢或不存在而导致的停滞现象。这种方法减轻了对专业人员知识的依赖,并展示了LLMs增强强化学习在复杂环境中的有效性的潜力。
  • 图表
  • 解决问题
    解决RL中设计reward function困难的问题,提出一种基于人类偏好和LLM的自动化奖励生成框架LLM4PG
  • 关键思路
    利用大型语言模型抽象轨迹、排名偏好、重构奖励函数,优化条件策略
  • 其它亮点
    LLM4PG在复杂的语言约束任务上的实验表明其有效性,加速RL收敛并克服原始奖励结构下的停滞现象;该方法减少对人类专业知识的依赖,展示了LLM在复杂环境中增强RL效果的潜力
  • 相关研究
    相关研究包括Preference-based Reinforcement Learning和基于自然语言处理的RL奖励设计方法
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论