- 简介学习奖励函数仍然是让机器人具备广泛技能的瓶颈。大型语言模型(LLM)包含有价值的任务相关知识,可以潜在地帮助学习奖励函数。然而,所提出的奖励函数可能不够精确,因此不够有效,需要进一步结合环境信息。我们提出了一种在没有人类干预下更有效地学习奖励的方法。我们的方法由两个组成部分组成:首先,我们使用LLM提出奖励的特征和参数化,然后通过迭代的自对准过程更新参数。特别地,该过程通过执行反馈来最小化LLM和学习奖励函数之间的排名不一致性。该方法在两个模拟环境中进行了9项任务的验证。它表现出对训练效果和效率的一致提高,同时与基于变异的替代方法相比,消耗的GPT令牌数量显著减少。
- 图表
- 解决问题解决学习奖励函数的瓶颈问题,提高机器人技能的广泛应用能力。
- 关键思路使用大型语言模型(LLM)中的任务相关知识,提出奖励函数的特征和参数化,并通过迭代自校准过程更新参数,从而有效地学习奖励函数。
- 其它亮点论文在两个模拟环境中验证了该方法,展示了在训练效率和效果上的一致性改进,同时与变异法方法相比,使用了更少的GPT令牌。
- 近期相关研究包括:1. Learning from Demonstrations Using Language Models as Inverse Reinforcement Learners;2. Learning Reward Functions from Natural Language Instructions;3. Learning Task-Specific Reward Functions from User Feedback via Deep Neural Networks。
沙发等你来抢
去评论
评论
沙发等你来抢