【标题】MULTI-OBJECTIVE EVOLUTION FOR GENERALIZABLE POLICY GRADIENT ALGORITHMS
【作者团队】Juan Jose Garau-Luis, Yingjie Miao, John D. Co-Reyes, Aaron Parisi
【发表日期】2022.4.8
【论文链接】https://arxiv.org/pdf/2204.04292.pdf
【推荐理由】性能、通用性和稳定性是强化学习 (RL) 的三个挑战,当同时处理多个RL目标时,最先进的RL算法仍然存在不足,并且当前的人为驱动的设计实践可能不适合多目标 RL。本文提出了一种进化方法MetaPG,可以发现遵循多目标搜索标准、以图表示的新RL算法,其中不同的RL目标被编码在单独的适应度分数中。当使用基于图的 Soft Actor-Critic (SAC) 实现来初始化总体时,本文的方法能够找到将 SAC 的性能和泛化性分别提高 3% 和 17% 的新算法,并且使不稳定性降低 65%。此外,我们还分析了总体中最佳算法的图形结构,并提供了特定元素的解释,这些元素有助于以性能换取可推广性,反之亦然。作者在RWRL Cartpole等三个不同的连续控制任务中进行了验证。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢