- 简介当面临完成任务时,人类专家表现出有意识的行为。他们独特的意图塑造了他们的计划和决策,导致专家展示出不同的行为来完成相同的任务。由于在现实世界中遇到的不确定性和他们的有限理性,专家有时会调整他们的意图,这反过来又影响了他们在任务执行期间的行为。本文介绍了一种新的模仿学习算法IDIL,以模仿专家的多样化意图驱动行为。我们的方法通过异构演示迭代地估计专家意图,然后使用它来学习一个意图感知模型,从而模仿专家的行为。与现有方法不同,IDIL能够处理具有高维状态表示的顺序任务,同时避免了与对抗性训练相关技术的复杂性和缺点。我们的实证结果表明,IDIL生成的模型在任务性能指标上要么匹配要么超过最近的模仿学习基准。此外,由于它创建了一个生成模型,IDIL在意图推断度量方面表现出优秀的性能,这对于人机交互至关重要,并恰当地捕捉了广泛的专家行为。
-
- 图表
- 解决问题本论文试图解决如何模仿人类专家在任务执行中的多样化意图驱动行为的问题,并提出了一种新的模仿学习算法。
- 关键思路IDIL算法通过迭代地从异构演示中估计专家意图,并使用它来学习意图感知模型,从而模仿专家的多样化行为。
- 其它亮点论文使用IDIL算法在高维状态表示的序列任务中进行了实验,结果显示IDIL算法在任务性能和意图推断指标上均优于当前的模仿学习基准。此外,IDIL算法生成的生成模型能够很好地捕捉专家行为的广泛谱系。
- 近期的相关研究包括Adversarial Imitation Learning, Generative Adversarial Imitation Learning和Variational Imitation Learning等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流