【标题】Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning

【作者团队】Guoxi Zhang, Hisashi Kashima

【发表日期】2022.11.29

【论文链接】https://arxiv.org/pdf/2211.16078.pdf

【推荐理由】离线强化学习 (RL) 由于其吸引人的数据效率而受到越来越多的关注。本研究涉及行为估计,这是一项为许多离线 RL 算法奠定基础的任务。行为估计旨在估计生成训练数据的策略。特别是,这项工作考虑了从多个来源收集数据的场景。在这种情况下,忽略数据异质性,现有的行为估计方法会受到行为错误指定的影响。为了克服这个缺点,本研究提出了一个潜在变量模型来从数据中推断出一组策略,这允许代理将最能描述特定轨迹的策略用作行为策略。该模型为多源数据提供智能体细粒度表征,并帮助它克服行为错误指定。这项工作还为该模型提出了一种学习算法,并通过扩展现有的离线 RL 算法来说明其实际用法。最后,通过广泛的评估,这项工作证实了行为错误规范的存在和所提出模型的有效性。