Stuart Russell等人使用Gromov-Wasserstein距离来对齐和比较智能体不同空间之间的状态,从而使人模仿猎豹走路成为可能。
跨域模仿学习研究的是如何利用一个智能体的专家演示来训练一个具有不同实施方式或形态的模仿智能体。比较专家智能体和模仿智能体之间的轨迹和平稳分布是具有挑战性的,因为它们生活在不同的系统中,甚至可能不具有相同的维数。
近日,来自加州大学伯克利分校人工智能实验室、伦敦大学学院和 Facebook AI 的研究人员在一篇论文 Cross-Domain Imitiation Learning via Optimal Transport 中提出了 Gromov-Wasserstein 模仿学习(GWIL),这是一种跨域模仿的方法,使用 Gromov-Wasserstein 距离来对齐和比较智能体不同空间之间的状态。
论文链接:https://arxiv.org/pdf/2110.03684v1.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢