- 简介本文研究了机器人运动规划控制策略的学习问题,要求实现零样本泛化,即当学习的策略在新环境中部署时,无需进行数据收集和策略调整。我们开发了一种联邦强化学习框架,可以实现多个学习者和中央服务器(即云端)的协作学习,而不共享原始数据。在每次迭代中,每个学习者上传其本地控制策略和相应的估计归一化到达时间到云端,然后云端计算所有学习者的全局最优策略并向学习者广播最优策略。然后每个学习者选择本地控制策略或云端策略作为下一次迭代的策略。所提出的框架利用了到达时间和安全性的零样本泛化保证。本文还提供了几乎必然收敛、几乎一致、帕累托改进和最优性差距的理论保证。通过蒙特卡罗模拟评估了所提出的框架。
- 图表
- 解决问题本文旨在解决机器人运动规划中的零样本泛化问题,即在新环境中部署学习的策略时不需要数据收集和策略适应。
- 关键思路本文提出了一个联邦强化学习框架,允许多个学习者和中央服务器(云)进行协作学习,而不共享原始数据。该框架利用到了到达时间和安全性上的零样本泛化保证。每个学习者在每次迭代中上传其本地控制策略和相应的估计归一化到达时间,云计算则在学习者之间计算全局最优策略并向学习者广播最优策略。每个学习者随后选择其本地控制策略和云中的策略进行下一次迭代。
- 其它亮点本文提供了关于几乎肯定收敛、几乎一致、帕累托改进和最优性差距的理论保证。通过蒙特卡罗模拟评估了提出的框架。
- 最近的相关研究包括《Federated Reinforcement Learning with Proxy Experience Replay》、《Federated Multi-Task Reinforcement Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢