- 简介顺序决策需要与人类意图相一致,并在各种任务中表现出多功能性。先前的方法将其制定为条件生成过程,利用返回条件扩散模型直接建模轨迹分布。然而,返回条件范式依赖于预定义的奖励函数,在应用于具有不同奖励函数(多功能性)的多任务设置时面临挑战,并显示出对人类偏好的控制能力有限(一致性)。在这项工作中,我们采用多任务偏好作为单任务和多任务决策的统一条件,并提出了与偏好标签一致的偏好表示。学习到的表示用于指导扩散模型的条件生成过程,并引入辅助目标来最大化表示和相应生成轨迹之间的互信息,提高轨迹与偏好之间的一致性。在D4RL和Meta-World的大量实验中,我们的方法在单任务和多任务场景中表现出有利的性能,并展现出优越的偏好一致性。
- 图表
- 解决问题本文尝试解决多任务强化学习中的多样性和对人类意图的控制问题。传统方法依赖于预定义的奖励函数,难以适用于多任务场景,且对于人类偏好的控制能力有限。
- 关键思路本文提出了一种基于多任务偏好的条件生成方法,通过学习偏好表示来指导扩散模型的条件生成过程,并引入辅助目标来提高生成轨迹与偏好之间的一致性。这种方法在单任务和多任务情况下均取得了较好的表现,并且在与偏好的一致性方面表现出更好的性能。
- 其它亮点本文的亮点包括使用多任务偏好来指导生成过程,提高了模型的可控性和人类偏好的对齐性;通过引入辅助目标来提高生成轨迹与偏好之间的一致性;在 D4RL 和 Meta-World 数据集上进行了广泛实验,并展示了优越的性能。
- 与本文相关的研究包括使用多任务学习来提高强化学习性能的研究,以及使用生成模型生成轨迹的研究。例如,Multi-Task Deep Reinforcement Learning with PopArt 和 Learning Latent Dynamics for Planning from Pixels。
沙发等你来抢
去评论
评论
沙发等你来抢