Cross-Domain Policy Transfer by Representation Alignment via Multi-Domain Behavioral Cloning

向作者提问

NEW

简介

将学到的技能在不同情境下进行转移对于自主代理人来说仍然是一个基本的挑战，特别是当代理人不被允许与准确的目标设置进行交互时。虽然之前的方法主要集中在学习域翻译上，但它们往往难以处理显著的领域差距或超出分布任务。在本文中，我们提出了一种简单的跨域策略转移方法，它在域之间学习了一个共享的潜在表示，并在其上学习了一个通用的抽象策略。我们的方法利用代理任务的不对齐轨迹上的多域行为克隆，并采用最大均值差异(MMD)作为正则化项，以鼓励跨域对齐。与常用的域判别式分布匹配相比，MMD正则化更好地保留了潜在状态分布的结构，从而导致更高的转移性能。此外，我们的方法只涉及训练一个多域策略，这使得扩展比现有方法更容易。实证评估表明，我们的方法在各种领域转移中都很有效，特别是在精确域翻译具有挑战性的情况下，例如跨形态或跨视角设置。我们的消融研究进一步揭示了多域行为克隆在域对齐方面的隐含贡献，同时还具有域对抗正则化的作用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决自主智能体在不同情境下的技能转移问题，尤其是当智能体无法与精确的目标设置进行交互时。现有方法主要集中在学习领域翻译，但往往难以处理显著的领域差距或分布外的任务。
关键思路

本论文提出了一种简单的跨领域策略转移方法，该方法在领域之间学习了一个共享的潜在表示，并在其上学习了一个通用的抽象策略。该方法利用代理任务的不对齐轨迹上的多领域行为克隆，并使用最大平均差异（MMD）作为正则化项来鼓励跨领域对齐。
其它亮点

本论文的亮点包括：使用多领域行为克隆隐式地促进表示对齐；使用MMD正则化更好地保留了潜在状态分布的结构，从而提高了转移性能；仅训练一个多领域策略，使扩展比现有方法更容易。实验结果表明，该方法在各种领域转移方案中都具有很好的效果，尤其是在精确领域翻译具有挑战性的情况下，如跨形态或跨视角设置。本论文的相关工作包括学习领域翻译的现有方法和使用多领域行为克隆的方法。
相关研究

相关研究包括：Domain-Adversarial Training of Neural Networks、Unsupervised Domain Adaptation by Backpropagation 和Deep Adversarial Domain Adaptation。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问