京都大学|基于多源数据的离线强化学习行为估计

【标题】Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning

【作者团队】Guoxi Zhang, Hisashi Kashima

【发表日期】2022.11.29

【论文链接】https://arxiv.org/pdf/2211.16078.pdf

【推荐理由】离线强化学习 (RL) 由于其吸引人的数据效率而受到越来越多的关注。本研究涉及行为估计，这是一项为许多离线 RL 算法奠定基础的任务。行为估计旨在估计生成训练数据的策略。特别是，这项工作考虑了从多个来源收集数据的场景。在这种情况下，忽略数据异质性，现有的行为估计方法会受到行为错误指定的影响。为了克服这个缺点，本研究提出了一个潜在变量模型来从数据中推断出一组策略，这允许代理将最能描述特定轨迹的策略用作行为策略。该模型为多源数据提供智能体细粒度表征，并帮助它克服行为错误指定。这项工作还为该模型提出了一种学习算法，并通过扩展现有的离线 RL 算法来说明其实际用法。最后，通过广泛的评估，这项工作证实了行为错误规范的存在和所提出模型的有效性。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

京都大学|基于多源数据的离线强化学习行为估计

评论