Learning Reward for Robot Skills Using Large Language Models via Self-Alignment

简介

学习奖励函数仍然是让机器人具备广泛技能的瓶颈。大型语言模型（LLM）包含有价值的任务相关知识，可以潜在地帮助学习奖励函数。然而，所提出的奖励函数可能不够精确，因此不够有效，需要进一步结合环境信息。我们提出了一种在没有人类干预下更有效地学习奖励的方法。我们的方法由两个组成部分组成：首先，我们使用LLM提出奖励的特征和参数化，然后通过迭代的自对准过程更新参数。特别地，该过程通过执行反馈来最小化LLM和学习奖励函数之间的排名不一致性。该方法在两个模拟环境中进行了9项任务的验证。它表现出对训练效果和效率的一致提高，同时与基于变异的替代方法相比，消耗的GPT令牌数量显著减少。
图表
解决问题

解决学习奖励函数的瓶颈问题，提高机器人技能的广泛应用能力。
关键思路

使用大型语言模型（LLM）中的任务相关知识，提出奖励函数的特征和参数化，并通过迭代自校准过程更新参数，从而有效地学习奖励函数。
其它亮点

论文在两个模拟环境中验证了该方法，展示了在训练效率和效果上的一致性改进，同时与变异法方法相比，使用了更少的GPT令牌。
相关研究

近期相关研究包括：1. Learning from Demonstrations Using Language Models as Inverse Reinforcement Learners；2. Learning Reward Functions from Natural Language Instructions；3. Learning Task-Specific Reward Functions from User Feedback via Deep Neural Networks。

Learning Reward for Robot Skills Using Large Language Models via Self-Alignment

评论