- 简介离线多任务强化学习(MTRL)的目的是开发一个统一的策略,适用于各种任务,而无需在线交互。最近的进展是通过序列建模来实现的,利用Transformer架构的可扩展性和参数共享的好处来利用任务的相似性。然而,任务内容和复杂度的变化在策略制定中带来了重大挑战,需要谨慎地共享参数,并管理冲突梯度以实现最佳策略性能。在这项工作中,我们介绍了Harmony Multi-Task Decision Transformer(HarmoDT),这是一种新颖的解决方案,旨在为每个任务识别最佳的和谐参数子空间。我们将其视为一个双层优化问题,采用利用基于梯度的技术的元学习框架。该框架的上层专门用于学习任务特定的掩码,以界定和谐子空间,而内部层则专注于更新参数,以增强统一策略的整体性能。在一系列基准测试中的实证评估证明了HarmoDT的优越性,验证了我们方法的有效性。
-
- 图表
- 解决问题论文旨在解决离线多任务强化学习中的参数共享和梯度冲突问题,提出了一种新的解决方案。
- 关键思路论文提出了Harmony Multi-Task Decision Transformer (HarmoDT)模型,采用双层优化框架,通过元学习学习任务特定的掩码,以便在每个任务中识别最佳的参数和更新策略。
- 其它亮点论文在多个基准测试中对HarmoDT进行了实证评估,证明了其相对于现有方法的优越性。此外,论文还提出了一种新的元学习策略,可以在其他领域中进一步探索。
- 最近的相关研究包括:《A Comprehensive Survey on Multi-Task Learning with Deep Neural Networks》、《Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流