Residual-MPPI: Online Policy Customization for Continuous Control

2024年07月01日
  • 简介
    通过强化学习(RL)和模仿学习(IL)学习到的策略已经在连续控制任务中展现出了显著的潜力。然而,在现实环境中,当出现了原始训练阶段未预见到的额外需求时,通常需要进一步定制已训练好的策略。可以对策略进行微调以满足新的需求,但这通常需要收集具有附加要求的新数据以及访问原始训练指标和策略参数。相比之下,如果在线规划算法能够满足额外的需求,它就可以消除对广泛的训练阶段的需求,并在不了解原始训练方案或任务的情况下自定义策略。在这项工作中,我们提出了一种通用的在线规划算法,用于在执行时间内定制连续控制策略,我们称之为Residual-MPPI。它能够在少量甚至零次在线设置中根据新的性能指标定制给定的先前策略。此外,Residual-MPPI仅需要访问先前策略产生的动作分布,而无需了解原始任务的其他知识。通过我们的实验,我们展示了所提出的Residual-MPPI算法可以有效地完成少量/零次在线策略定制任务,包括在具有挑战性的汽车竞赛场景,Gran Turismo Sport(GTS)环境中定制冠军级赛车代理GT Sophy 1.0。演示视频可在我们的网站上找到:https://sites.google.com/view/residual-mppi。
  • 图表
  • 解决问题
    如何在执行过程中定制连续控制策略以满足额外需求?
  • 关键思路
    提出了一种名为Residual-MPPI的在线规划算法,可以在执行过程中定制先前策略的性能指标,而无需访问原始任务或原始训练模型参数。
  • 其它亮点
    Residual-MPPI算法可以在少量或零次在线设置中有效地完成定制任务,包括在Gran Turismo Sport环境中定制冠军级赛车代理GT Sophy 1.0的实验。
  • 相关研究
    最近的相关研究包括使用强化学习和模仿学习进行连续控制任务的训练,以及使用在线规划算法进行策略定制的研究,如Model Predictive Path Integral(MPPI)算法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论