华为诺亚方舟实验室|基于模型的具有悲观调节动态信念的离线强化学习

【标题】Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief

【作者团队】Kaiyang Guo, Yunfeng Shao, Yanhui Geng

【发表日期】2022.10.13

【论文链接】https://arxiv.org/pdf/2210.06692.pdf

【推荐理由】基于模型的离线强化学习(RL)旨在利用以前收集的静态数据集和动态模型，找到高回报的策略。动态模型的泛化能力在重用静态数据集的同时，如果利用得当，有望促进策略学习。由于动态和奖励在MDP背景下是本质不同的因素，通过奖励惩罚来表征动态不确定性的影响可能会在模型利用和风险规避之间产生意想不到的权衡。本文相反地在动态上保持信念分布，并通过信念中的有偏见抽样来评估/优化策略策。基于离线RL的交替马尔可夫博弈公式推导了偏向悲观的抽样程序。此文正式地表明，偏差抽样自然地诱导了一个带有策略依赖重加权因子的更新动态信念，称为悲观调制动态信念。为了改进策略，此文设计了一种迭代正则化策略优化算法，保证了在一定条件下的单调改进。为了使其具有实用性，本文进一步设计了一个离线RL算法来近似求解。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

华为诺亚方舟实验室|基于模型的具有悲观调节动态信念的离线强化学习

评论