- 简介大型语言模型(LLMs)已经成为一种新的具有体现推理和控制的范例,最近通过生成机器人策略代码,利用自定义的视觉和控制基本技能库来实现。然而,先前的技术是通过固定技能库和精心设计的提示工程来引导LLM,限制了代理人可处理的任务范围。在这项工作中,我们介绍了LRLL,这是一种基于LLM的终身学习代理,它不断扩展机器人技能库,以处理越来越复杂的操纵任务。LRLL通过四个新颖的贡献实现了这一点:1)一个软记忆模块,允许动态存储和检索过去的经验作为上下文,2)一个自我引导的探索策略,在模拟中提出新任务,3)一个技能抽象器,将最近的经验提炼为新的技能库技能,以及4)一种终身学习算法,使人类用户能够在最少的在线交互中启动新技能。LRLL不断将知识从记忆中转移到库中,构建可组合、通用和可解释的策略,同时绕过基于梯度的优化,从而使学习者免于灾难性遗忘。在模拟的桌面环境中进行的实证评估表明,LRLL在终身设置中优于端到端和普通LLM方法,同时学习的技能可以转移到现实世界。项目材料将在网页https://gtziafas.github.io/LRLL_project上提供。
- 图表
- 解决问题本论文旨在解决机器人控制中的一个新问题:如何实现基于LLM的生涯学习代理,以不断增加机器人技能库来解决日益复杂的操作任务?
- 关键思路论文提出了四个新颖的贡献:1)软存储模块,允许动态存储和检索过去的经验以作为上下文;2)自主探索策略,在仿真中提出新任务;3)技能抽象器,将最近的经验提炼为新的库技能;4)终身学习算法,使人类用户能够以最小的在线交互启动新技能。LRLL通过不断将知识从内存传输到库中,构建可组合、通用和可解释的策略,同时避免梯度优化,从而减轻了学习者的灾难性遗忘。
- 其它亮点论文在模拟台面环境中进行了实证评估,结果表明LRLL在终身学习设置中优于端到端和香草LLM方法,同时学习的技能也可迁移到真实世界。项目材料将在网页https://gtziafas.github.io/LRLL_project上提供。
- 最近在这个领域中,还有一些相关的研究,例如:1)基于LLM的机器人策略生成和控制;2)机器人技能库的增量学习;3)终身学习中的灾难性遗忘问题等。
沙发等你来抢
去评论
评论
沙发等你来抢