成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐

【标题】Domain Adaptive State Representation Alignment for Reinforcement Learning

【作者团队】Dongfen Li, Lichao Meng, Jingjing Li, Ke Lu, Yang Yang

【发表日期】2022.7.29

【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025522008416

【推荐理由】大多数现有的 RL 模型都不能泛化，这限制了 RL 在实际应用中的泛化性和灵活性。为了解决这个问题，本文提出了一个两阶段模型，其中强化学习智能体在学习最佳行为策略之前学习适应视觉环境的变化。在第一阶段，采用域适应来对齐潜在特征空间中不同域的域不变状态表示的分布。具体来说，本文引入特征级和像素级多粒度对抗性损失来限制域不变状态表示的学习。在第二阶段，RL 智能体基于学习到的域不变状态表示进行训练。由于调整后的观察是域不变的，因此学习到的策略具有很强的跨域泛化性能。本文将所提出的方法命名为基于对抗的域不变状态表示（Ad-DISR）。最后，在各种赛车游戏和自动驾驶模拟器 CARLA 上评估 Ad-DISR。结果表明，此方法可以在源域和目标域的奖励分数和生存时间方面取得更好的性能。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

成都理工大学&电子科技大学|用于强化学习的域自适应状态表示对齐

评论列表

评论