DFKI : Nicolás Navarro-Guerrero | 机器人任务交互强化学习中反馈频率影响的量化

【标题】Quantifying the Effect of Feedback Frequency in Interactive Reinforcement Learning for Robotic Tasks

【作者团队】Daniel Harnack, Julie Pivin-Bachler, Nicolás Navarro-Guerrero

【发表日期】2022.7.20

【论文链接】https://arxiv.org/pdf/2207.09845.pdf

【推荐理由】强化学习 (RL) 已在机器人控制中得到广泛采用。尽管取得了许多成功，但一个主要的持续存在的问题可能是数据效率非常低。现有解决方案是交互式反馈，它已被证明可以显着加快 RL。因此，有大量不同的策略，然而，这些策略主要在离散网格世界和小规模优化控制场景中进行测试。在文献中，对于哪种反馈频率是最佳的或在什么时候反馈最有益，并没有达成共识。为了解决这些差异，本文分离并量化了反馈频率在具有连续状态和动作空间的机器人任务中的影响。实验包括不同复杂度的机器人机械臂的逆运动学学习。研究表明，看似矛盾的报道现象发生在不同的复杂程度。此外，研究结果表明不存在单一的理想反馈频率。而是应该随着智能体对任务的熟练程度的提高而改变反馈频率。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

DFKI : Nicolás Navarro-Guerrero | 机器人任务交互强化学习中反馈频率影响的量化

评论