- 简介我们描述了一个使用自然语言设计状态抽象以进行模仿学习的框架。在高维观测空间中进行可推广的策略学习需要精心设计的状态表示,这些状态表示可以展示环境的重要特征并隐藏不相关的特征。这些状态表示通常是手动指定的,或者是从其他费力的标记过程中派生出来的。我们的方法LGA(语言引导抽象)结合了自然语言监督和语言模型的背景知识,自动构建针对未见任务量身定制的状态表示。在LGA中,用户首先以自然语言提供目标任务的(可能不完整的)描述;接下来,预训练的语言模型将此任务描述转换为状态抽象函数,该函数遮盖了不相关的特征;最后,使用少量演示和LGA生成的抽象状态训练模仿策略。在模拟机器人任务上的实验表明,LGA产生的状态抽象类似于人类设计的状态抽象,但时间只需人类设计的一小部分,并且这些抽象可以提高在存在虚假相关性和模糊规范的情况下的泛化性和鲁棒性。我们在Spot机器人上的移动操作任务中展示了学习到的抽象的实用性。
- 图表
- 解决问题论文旨在使用自然语言设计状态抽象,以便在高维度观察空间中进行泛化策略学习,解决手动设计状态表示的繁琐问题。
- 关键思路论文提出了一种名为LGA的方法,使用自然语言和语言模型的背景知识来自动构建适用于未知任务的状态表示,从而提高泛化性和鲁棒性。
- 其它亮点LGA方法通过自然语言和语言模型的背景知识来自动构建状态表示,从而节省了手动设计的时间。实验结果表明,LGA生成的状态表示与人工设计的状态表示相似,并且在存在虚假相关性和模糊规范的情况下提高了泛化性和鲁棒性。论文还使用Spot机器人对移动操作任务进行了演示。
- 最近的相关研究包括使用深度学习方法进行状态表示学习和使用自然语言描述来指导强化学习任务的方法。例如,文章《Deep Variational Information Bottleneck for State and Representation Learning》和《Learning from Demonstrations using Language as Supervision》。
沙发等你来抢
去评论
评论
沙发等你来抢