- 简介在人类环境下,偏好一致的机器人导航通常通过基于学习的方法实现,利用演示和用户反馈进行个性化。然而,个人偏好是会发生变化的,甚至可能受到上下文的影响。然而,传统的强化学习(RL)方法通常使用静态奖励函数,难以适应这些变化的用户偏好。本文介绍了一种将多目标强化学习(MORL)与基于演示的学习相结合的框架。我们的方法允许动态适应用户偏好的变化而无需重新训练。通过严格的评估,包括从模拟到实际和机器人到机器人的转移,我们证明了我们的框架能够准确反映用户的偏好,同时在避免碰撞和追求目标方面实现高导航性能。
- 图表
- 解决问题本文旨在解决人工智能助手在人类环境中的导航问题,如何根据用户偏好动态调整导航策略。传统的强化学习方法无法适应用户偏好的变化和上下文相关性。
- 关键思路本文提出了将多目标强化学习和基于演示的学习相结合的框架,实现了动态调整导航策略以适应用户偏好的变化,无需重新训练。
- 其它亮点本文通过严格的评估,包括从仿真到实际机器人和机器人之间的转移,证明了该框架能够准确反映用户偏好,并在避免碰撞和追求目标方面实现了高水平的导航性能。
- 在这个领域中,最近的相关研究包括:1. "Preference-Based Reinforcement Learning for Personalized Navigation";2. "Personalized Navigation in Crowded Environments with Deep Reinforcement Learning";3. "Multi-Objective Reinforcement Learning: A Comprehensive Overview"等。
沙发等你来抢
去评论
评论
沙发等你来抢