【标题】Rethinking Value Function Learning for Generalization in Reinforcement Learning

【作者团队】Seungyong Moon, JunYeong Lee, Hyun Oh Song

【发表日期】2022.10.18

【论文链接】https://arxiv.org/pdf/2210.09960.pdf

【推荐理由】研究人员专注于在多个训练环境中训练 RL智能体以提高观察泛化性能的问题。在现有方法中,策略网络和价值网络分别使用不相交的网络架构进行优化,以避免干扰并获得更准确的价值函数。本文研究者发现,与传统的单环境设置相比,多环境设置中的价值网络更难优化,并且更容易过度拟合训练数据。此外,研究人员发现需要对价值网络进行适当的正则化才能获得更好的训练和测试性能。为此,本文提出了延迟批评策略梯度(DCPG),它通过使用比策略网络更多的训练数据更频繁地优化价值网络来隐式惩罚价值估计,这可以使用共享网络架构来实现。此外,本文研究者引入了一个简单的自我监督任务,该任务使用单个鉴别器学习环境的正向和反向动态,可以与价值网络联合优化。实验表明本文提出的算法显著提高了 Procgen基准测试中的观察泛化性能和样本效率。