Preference-Conditioned Language-Guided Abstraction

Andi Peng,
Andreea Bobu,
Belinda Z. Li,
Theodore R. Sumers,
Ilia Sucholutsky,
Nishanth Kumar,
Thomas L. Griffiths,
Julie A. Shah
50
热度
Rob
AI
ML
2024年02月05日
  • 简介
    从示范学习是用户教授机器人的常见方式,但容易出现虚假特征相关性。最近的研究使用语言构建状态抽象,即包含任务相关特征的视觉表示,以进行更通用的学习。然而,这些抽象也取决于用户对任务中重要性的偏好,这可能很难用语言描述或仅用语言无法详尽说明。我们如何构建抽象来捕捉这些潜在的偏好呢?我们观察到人类的行为方式揭示了他们如何看待世界。我们的关键洞察力是,人类行为的变化告诉我们,他们对看待世界的偏好有所不同,即他们的状态抽象。在这项工作中,我们提出使用语言模型(LMs)直接查询这些偏好,因为我们知道行为发生了变化。在我们的框架中,我们使用LM的两种方式:首先,给定任务的文本描述和状态之间的行为变化的知识,我们查询LM以获取可能的隐藏偏好;其次,给定最可能的偏好,我们查询LM以构建状态抽象。在这个框架中,当LM不确定自己的估计时,它也能直接向人类提问。我们在模拟实验、用户研究以及在执行移动操作任务的真实Spot机器人上展示了我们的框架构建有效的偏好条件抽象的能力。
  • 图表
  • 解决问题
    如何构建状态抽象来捕捉用户的潜在偏好?
  • 关键思路
    使用语言模型(LM)直接查询用户的偏好,并构建状态抽象。
  • 其它亮点
    论文提出了一种使用LM查询用户偏好并构建状态抽象的方法,能够有效地构建偏好条件下的抽象状态,实验表明该方法在模拟实验、用户研究和真实机器人任务中都表现出色。
  • 相关研究
    最近的相关研究包括使用语言来构建状态抽象以进行泛化学习的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论