【标题】Reinforcement Learning with Non-Exponential Discounting

【作者团队】Matthias Schultheis, Constantin A. Rothkopf, Heinz Koeppl

【发表日期】2020.9.27

【论文链接】https://arxiv.org/pdf/2209.13413.pdf

【推荐理由】在强化学习(RL)中,通常使用指数函数来模拟时间偏好,将奖励随时间折现,从而约束预期的长期奖励。相反,在经济学和心理学中,已经证明人类经常采用双曲折现方案,当假设特定的任务终止时间分布时,这种方案是最佳的。本文提出了一个基于连续时间模型的强化学习理论,并将其推广到任意的折现函数。这一表述涵盖了存在非指数随机终止时间的情况。文中推导出一个Hamilton-Jacobi-Bellman(HJB)方程,描述了如何使用拼合方法解决该问题,该方法使用深度学习进行函数近似。此外,本文展示了如何处理逆向RL问题,研究人员尝试恢复给定决策数据的折扣函数的属性。文中在两个模拟问题上验证了所提出的方法的适用性。本文的方法为分析人类在连续决策任务中的折扣开辟了道路。