谷歌团队在CoRL 2021上提出了一种隐式行为克隆 (Implicit BC) 算法,该方法在7项测试任务中的6项上优于此前最佳的离线强化学习方法(Conservative Q Learning)。Implicit BC在现实世界中表现也得特别好,比基线的显式行为克隆(explicit BC)模型好10倍。
机器人需要在桌子上滑动滑块,然后将其精确插入固定装置,显式行为克隆模型表现得很犹豫
为了学习没有离散化特征缺陷的决定性策略,谷歌团队提出了一种隐式行为克隆 (Implicit BC) 的开源算法,这是一种新的、简单的模仿学习方法,已经在 CoRL 2021 上展示。
该方法在模拟基准任务和需要精确和果断行为的现实世界机器人任务上都取得了很好的结果。在7项测试任务中,隐式 BC 的性能在其中6项上优于此前最佳的离线强化学习方法(Conservative Q Learning)。
有趣的是,隐式 BC 在不需要任何奖励信息的情况下实现了这些结果,即可以使用相对简单的监督学习,而不是更复杂的强化学习。
参考链接:https://ai.googleblog.com/2021/11/decisiveness-in-imitation-learning-for.html
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢