Learning Adaptive Multi-Objective Robot Navigation with Demonstrations

2024年04月07日
  • 简介
    在人类环境下,偏好一致的机器人导航通常通过基于学习的方法实现,利用演示和用户反馈进行个性化。然而,个人偏好是会发生变化的,甚至可能受到上下文的影响。然而,传统的强化学习(RL)方法通常使用静态奖励函数,难以适应这些变化的用户偏好。本文介绍了一种将多目标强化学习(MORL)与基于演示的学习相结合的框架。我们的方法允许动态适应用户偏好的变化而无需重新训练。通过严格的评估,包括从模拟到实际和机器人到机器人的转移,我们证明了我们的框架能够准确反映用户的偏好,同时在避免碰撞和追求目标方面实现高导航性能。
  • 图表
  • 解决问题
    本文旨在解决人工智能助手在人类环境中的导航问题,如何根据用户偏好动态调整导航策略。传统的强化学习方法无法适应用户偏好的变化和上下文相关性。
  • 关键思路
    本文提出了将多目标强化学习和基于演示的学习相结合的框架,实现了动态调整导航策略以适应用户偏好的变化,无需重新训练。
  • 其它亮点
    本文通过严格的评估,包括从仿真到实际机器人和机器人之间的转移,证明了该框架能够准确反映用户偏好,并在避免碰撞和追求目标方面实现了高水平的导航性能。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. "Preference-Based Reinforcement Learning for Personalized Navigation";2. "Personalized Navigation in Crowded Environments with Deep Reinforcement Learning";3. "Multi-Objective Reinforcement Learning: A Comprehensive Overview"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论