【Google AI】低数据环境下的模仿学习

在交互成本较高的环境中(例如真实机器人或复杂模拟器),PWIL是主要候选,不仅因为它可以还原专家的行为,还因为它定义的奖励函数易于调整,无需交互就可以定义环境。这为以后的探索提供了多种机会,包括部署到实际系统,将PWIL扩展到我们只能访问呈现状态(而不能访问状态和动作)的设置,最后将PWIL应用到基于视觉的观察中。 该项研究由研究软件工程师Robert Dadashi和Google Research学生研究员LéonardHussenot发布。 原文章http://suo.im/5G9pKv

研究
评论0

可用Markdown格式