达姆施塔特工业大学|非指数折现的强化学习

【标题】Reinforcement Learning with Non-Exponential Discounting

【作者团队】Matthias Schultheis, Constantin A. Rothkopf, Heinz Koeppl

【发表日期】2020.9.27

【论文链接】https://arxiv.org/pdf/2209.13413.pdf

【推荐理由】在强化学习（RL）中，通常使用指数函数来模拟时间偏好，将奖励随时间折现，从而约束预期的长期奖励。相反，在经济学和心理学中，已经证明人类经常采用双曲折现方案，当假设特定的任务终止时间分布时，这种方案是最佳的。本文提出了一个基于连续时间模型的强化学习理论，并将其推广到任意的折现函数。这一表述涵盖了存在非指数随机终止时间的情况。文中推导出一个Hamilton-Jacobi-Bellman（HJB）方程，描述了如何使用拼合方法解决该问题，该方法使用深度学习进行函数近似。此外，本文展示了如何处理逆向RL问题，研究人员尝试恢复给定决策数据的折扣函数的属性。文中在两个模拟问题上验证了所提出的方法的适用性。本文的方法为分析人类在连续决策任务中的折扣开辟了道路。

达姆施塔特工业大学|非指数折现的强化学习

评论