Inference-Time Policy Steering through Human Interactions

2024年11月25日
  • 简介
    使用人类演示训练的生成策略可以自主完成多模态、长时域任务。然而,在推理过程中,人类通常被排除在策略执行循环之外,这限制了引导预训练策略向多个预测中的特定子目标或轨迹形状发展的能力。简单的人类干预可能会无意中加剧分布偏移,导致违反约束或执行失败。为了更好地使策略输出与人类意图对齐而不引起分布外错误,我们提出了一种推理时策略引导(ITPS)框架,该框架利用人类互动来偏向生成采样过程,而不是在交互数据上微调策略。我们在三个模拟和真实世界的基准测试中评估了ITPS,测试了三种形式的人类互动及其相关的对齐距离度量。在六种采样策略中,我们提出的基于扩散策略的随机采样在对齐和分布偏移之间取得了最佳平衡。视频可在以下网址查看:https://yanweiw.github.io/itps/。
  • 图表
  • 解决问题
    该论文试图解决的问题是在生成式策略执行过程中,如何在不引起分布偏移的情况下,通过人类干预来引导策略实现特定的子目标或轨迹形状。这是一个新的问题,因为现有的方法通常在训练时包含人类演示,但在推理阶段则将人类排除在外。
  • 关键思路
    论文提出了一种名为Inference-Time Policy Steering (ITPS) 的框架,该框架通过在推理时利用人类交互来影响生成式采样过程,而不是对策略进行微调。这种做法可以在保持模型分布稳定的同时,更好地使策略输出与人类意图对齐。
  • 其它亮点
    论文在三个模拟和真实世界的基准上进行了评估,测试了三种形式的人类交互及其对应的对齐距离度量。实验结果显示,提出的随机采样与扩散策略相结合的方法在对齐性和分布偏移之间取得了最佳平衡。此外,研究者还提供了视频展示实验结果,网址为 https://yanweiw.github.io/itps/。这项工作的开源代码和详细的实验设置为后续研究提供了宝贵资源。
  • 相关研究
    近期在这个领域中,还有一些相关的研究,例如: 1. "Learning from Human Preferences and Demonstrations for Continuous Robot Control" - 这篇论文探讨了如何从人类偏好和演示中学习连续控制任务。 2. "Human-in-the-Loop Reinforcement Learning via Reward Shaping" - 该研究提出了通过奖励塑形来实现在强化学习中的实时人类干预。 3. "Interactive Learning of Subgoal Sequences in Hierarchical Reinforcement Learning" - 这篇论文讨论了如何在分层强化学习中通过人类交互学习子目标序列。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论