- 简介多目标强化学习(MORL)由于类似于需要在多个目标之间进行权衡的现实场景而变得越来越重要。为了迎合不同用户的偏好,传统的强化学习在MORL中面临着更大的挑战。为了解决在MORL中从头开始训练策略的困难,我们引入了基于演示的多目标强化学习(DG-MORL)。这种新方法利用先前的演示,通过角权重支持将它们与用户偏好对齐,并采用自我进化机制来改进次优演示。我们的实证研究证明了DG-MORL相对于现有MORL算法的优越性,建立了它的鲁棒性和有效性,特别是在具有挑战性的条件下。我们还提供了该算法样本复杂度的上限。
- 图表
- 解决问题本论文旨在解决多目标强化学习中从头开始训练策略的困难,提出了一种基于演示的多目标强化学习方法(DG-MORL)
- 关键思路DG-MORL利用先前的演示,并通过角权重支持将其与用户偏好对齐,结合自我演化机制来改进次优演示,从而解决多目标强化学习中的困难。
- 其它亮点实验结果表明,DG-MORL在困难条件下具有优越性,建立了其健壮性和有效性,并提供了该算法样本复杂度的上限。
- 相关研究包括传统强化学习、多目标强化学习和基于演示的强化学习,例如Multi-Objective Deep Reinforcement Learning with Experience Replay和Diversity-Driven Curriculum Learning for Neural Machine Translation等。
沙发等你来抢
去评论
评论
沙发等你来抢