Learning Reward for Robot Skills Using Large Language Models via Self-Alignment

2024年05月12日
  • 简介
    学习奖励函数仍然是装备机器人具备广泛技能的瓶颈。大型语言模型(LLM)包含有价值的与任务相关的知识,可以潜在地帮助学习奖励函数。然而,所提出的奖励函数可能不够精确,因此效果不佳,需要进一步与环境信息相结合。我们提出了一种在无人干预情况下更有效地学习奖励的方法。我们的方法由两个部分组成:首先使用LLM来提出奖励的特征和参数化,然后通过迭代的自我对齐过程来更新参数。具体而言,该过程通过执行反馈来最小化LLM和学习奖励函数之间的排名不一致性。该方法在两个模拟环境中验证了9个任务,表现出对训练效率和效果的一致改进,同时相对于替代的基于突变的方法,消耗的GPT令牌显著减少。
  • 图表
  • 解决问题
    学习奖励函数是机器人拥有广泛技能库的瓶颈之一。本文旨在解决奖励函数不准确的问题,并提出了一种在无人参与的情况下更有效地学习奖励的方法。
  • 关键思路
    本文提出了一种使用大型语言模型(LLM)来提出奖励函数特征和参数化的方法,并通过自我对齐的迭代过程来更新参数,以减少LLM与基于执行反馈学习的奖励函数之间的排名不一致性。
  • 其它亮点
    本文在两个模拟环境中验证了该方法,共涉及9项任务,证明了该方法在训练效率和效果方面都有显著提高,同时相对于基于变异的替代方法,消耗的GPT令牌数量也显著减少。
  • 相关研究
    最近的相关研究包括:1.《Learning Latent Representations for Reward Functions from Human Feedback》;2.《Learning to Learn Reward Functions》;3.《Learning Reward Functions with Conditional Autoregressive Models》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论