Preference-Conditioned Language-Guided Abstraction

简介

从示范学习是用户教授机器人的常见方式，但容易出现虚假特征相关性。最近的研究使用语言构建状态抽象，即包含任务相关特征的视觉表示，以进行更通用的学习。然而，这些抽象也取决于用户对任务中重要性的偏好，这可能很难用语言描述或仅用语言无法详尽说明。我们如何构建抽象来捕捉这些潜在的偏好呢？我们观察到人类的行为方式揭示了他们如何看待世界。我们的关键洞察力是，人类行为的变化告诉我们，他们对看待世界的偏好有所不同，即他们的状态抽象。在这项工作中，我们提出使用语言模型(LMs)直接查询这些偏好，因为我们知道行为发生了变化。在我们的框架中，我们使用LM的两种方式：首先，给定任务的文本描述和状态之间的行为变化的知识，我们查询LM以获取可能的隐藏偏好；其次，给定最可能的偏好，我们查询LM以构建状态抽象。在这个框架中，当LM不确定自己的估计时，它也能直接向人类提问。我们在模拟实验、用户研究以及在执行移动操作任务的真实Spot机器人上展示了我们的框架构建有效的偏好条件抽象的能力。

图表

解决问题

如何构建状态抽象来捕捉用户的潜在偏好？

关键思路

使用语言模型（LM）直接查询用户的偏好，并构建状态抽象。

其它亮点

论文提出了一种使用LM查询用户偏好并构建状态抽象的方法，能够有效地构建偏好条件下的抽象状态，实验表明该方法在模拟实验、用户研究和真实机器人任务中都表现出色。

Preference-Conditioned Language-Guided Abstraction

评论