Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis

2024年04月09日
  • 简介
    为了提高强化学习的效率,我们提出了一种新的异步联邦强化学习框架,称为AFedPG。该框架通过$N$个代理之间的协作,使用策略梯度(PG)更新构建全局模型。为了处理异步环境中滞后策略的挑战,我们设计了延迟自适应的前瞻和归一化更新技术,可以有效处理策略梯度的异步到达时间。我们分析了AFedPG的理论全局收敛界限,并从样本复杂度和时间复杂度两方面表征了所提出算法的优势。具体而言,我们的AFedPG方法平均每个代理实现了$\mathcal{O}(\frac{{\epsilon}^{-2.5}}{N})$的样本复杂度。与样本复杂度为$\mathcal{O}(\epsilon^{-2.5})$的单个代理设置相比,它随着代理数量的增加实现了线性加速。此外,与同步FedPG相比,AFedPG将时间复杂度从$\mathcal{O}(\frac{t_{\max}}{N})$提高到$\mathcal{O}(\frac{1}{\sum_{i=1}^{N} \frac{1}{t_{i}}})$,其中$t_{i}$表示代理$i$在每次迭代中的时间消耗,$t_{\max}$是最大值。后者的复杂度$\mathcal{O}(\frac{1}{\sum_{i=1}^{N} \frac{1}{t_{i}}})$始终小于前者,这种改进在具有异构计算能力($t_{\max}\gg t_{\min}$)的大规模联邦设置中变得显著。最后,我们在三个不同数量代理的MuJoCo环境中验证了AFedPG的性能改进。我们还展示了不同计算异质性下的改进。
  • 图表
  • 解决问题
    提高强化学习效率的问题
  • 关键思路
    提出异步联邦强化学习框架AFedPG,通过协作构建全局模型,采用延迟自适应预测和归一化更新技术,解决异步设置中滞后策略的挑战,分析了AFedPG的全局收敛界限和样本复杂度和时间复杂度的优势
  • 其它亮点
    实验在三个MuJoCo环境中验证了AFedPG的改进性能,展示了不同计算异质性的改进,AFedPG方法在每个代理上平均达到O(ε^-2.5 / N)的样本复杂度,具有线性加速优势,时间复杂度从O(t_max / N)提高到O(1 /∑(i = 1)^ N(1 / t_i)),在异构计算能力的大规模联邦设置中,这种改进非常明显
  • 相关研究
    异步强化学习、联邦学习、策略梯度算法、MuJoCo环境
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论