- 简介强化学习(RL)方法在社交机器人导航方面表现出色,可以成功地引导机器人穿过人群,但是这些基于学习的方法在特别具有挑战性或陌生情况下的表现往往会降级,这是因为这些模型依赖于代表性的训练数据。为了确保人类的安全和舒适,这些算法处理不常见的情况至关重要,但是这些数据驱动方法面临着这些情况的低频率和广泛多样性的显著挑战。为了克服这个挑战,我们提出了对学习过程的修改,以鼓励这些RL策略在陌生情况下保持额外的谨慎。具体而言,我们通过以下方式改进了社交关注强化学习(SARL)策略:(1)修改训练过程,将偏差系统地引入行人模型中,(2)更新价值网络以估计和利用行人不可预测性特征,以及(3)实施奖励函数,以学习对行人不可预测性的有效响应。与原始SARL策略相比,我们修改后的策略保持了类似的导航时间和路径长度,同时减少了碰撞次数82%,并将在最困难的情况下花费在行人个人空间中的时间比例降低了高达19个百分点。我们还描述了如何将这些修改应用于其他RL策略,并展示了我们方法的一些关键高级行为如何转移到物理机器人上。
- 图表
- 解决问题如何提高社交机器人在复杂场景下的导航性能?
- 关键思路通过修改Socially Attentive Reinforcement Learning (SARL)策略的训练过程,引入对行人不可预测性的特征估计和利用,以及实施奖励函数,来提高机器人在不熟悉场景下的谨慎程度,从而避免碰撞和进入行人个人空间。
- 其它亮点论文通过实验表明,改进后的策略在保持导航时间和路径长度不变的情况下,将碰撞次数降低了82%,并将在最困难的情况下花费在行人个人空间中的时间比例降低了最多19个百分点。此外,论文还展示了如何将这些修改应用于其他RL策略,并证明了该方法的一些关键高级行为可以转移到实际机器人上。
- 最近的相关研究包括“Socially Aware Navigation with Human-Like Gaze and Motion”和“Robust Navigation in Dense Crowds: Combining Social Force and Reciprocal Velocity Obstacles”等论文。
沙发等你来抢
去评论
评论
沙发等你来抢