Learning Reward for Robot Skills Using Large Language Models via Self-Alignment

2024年05月12日
  • 简介
    学习奖励函数仍然是让机器人具备广泛技能的瓶颈。大型语言模型(LLM)包含有价值的任务相关知识,可以潜在地帮助学习奖励函数。然而,所提出的奖励函数可能不够精确,因此不够有效,需要进一步结合环境信息。我们提出了一种在没有人类干预下更有效地学习奖励的方法。我们的方法由两个组成部分组成:首先,我们使用LLM提出奖励的特征和参数化,然后通过迭代的自对准过程更新参数。特别地,该过程通过执行反馈来最小化LLM和学习奖励函数之间的排名不一致性。该方法在两个模拟环境中进行了9项任务的验证。它表现出对训练效果和效率的一致提高,同时与基于变异的替代方法相比,消耗的GPT令牌数量显著减少。
  • 图表
  • 解决问题
    解决学习奖励函数的瓶颈问题,提高机器人技能的广泛应用能力。
  • 关键思路
    使用大型语言模型(LLM)中的任务相关知识,提出奖励函数的特征和参数化,并通过迭代自校准过程更新参数,从而有效地学习奖励函数。
  • 其它亮点
    论文在两个模拟环境中验证了该方法,展示了在训练效率和效果上的一致性改进,同时与变异法方法相比,使用了更少的GPT令牌。
  • 相关研究
    近期相关研究包括:1. Learning from Demonstrations Using Language Models as Inverse Reinforcement Learners;2. Learning Reward Functions from Natural Language Instructions;3. Learning Task-Specific Reward Functions from User Feedback via Deep Neural Networks。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论