Residual-MPPI: Online Policy Customization for Continuous Control

2024年07月01日
  • 简介
    在连续控制任务中,通过强化学习(RL)和模仿学习(IL)学习的策略已经展示了显著的潜力。然而,在现实环境中,当出现原始训练阶段未预见到的额外要求时,通常需要进一步定制训练好的策略。可以通过微调策略来满足新的要求,但这通常需要收集具有附加要求的新数据,并且需要访问原始训练指标和策略参数。相比之下,如果在线规划算法能够满足额外的要求,就可以消除对广泛训练阶段的需求,并且在不知道原始训练方案或任务的情况下自定义策略。在这项工作中,我们提出了一种通用的在线规划算法,用于在执行时间内自定义连续控制策略,我们称之为Residual-MPPI。它能够在少量样本甚至零样本的在线设置中,根据新的性能指标定制给定的先前策略。此外,Residual-MPPI仅需要访问先前策略产生的动作分布,而无需其他关于原始任务的知识。通过我们的实验,我们证明了所提出的Residual-MPPI算法可以有效地完成少量样本/零样本在线策略定制任务,包括在具有挑战性的汽车赛车场景Gran Turismo Sport(GTS)环境中定制冠军级赛车代理Gran Turismo Sophy(GT Sophy)1.0。我们的网站上提供了演示视频:https://sites.google.com/view/residual-mppi。
  • 图表
  • 解决问题
    提出了一种名为Residual-MPPI的在线规划算法,旨在解决在实际环境中需要进一步定制训练好的策略的问题。
  • 关键思路
    Residual-MPPI算法能够在少量数据和零数据的情况下,通过访问先前策略产生的行动分布来自定义先前策略,而无需了解原始任务或训练方案。
  • 其它亮点
    该算法在定制连续控制策略方面表现出色,包括在具有挑战性的汽车赛车场景中定制Gran Turismo Sophy(GT Sophy)1.0等智能体。作者提供了演示视频和开源代码。
  • 相关研究
    最近的相关研究包括基于强化学习和模仿学习的策略定制,以及在线规划算法的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论