【标题】On the Challenges of using Reinforcement Learning in Precision Drug Dosing: Delay and Prolongedness of Action Effects

【作者团队】Sumana Basu, Marc-André Legault, Adriana Romero-Soriano, Doina Precup

【发表日期】2023.1.2

【论文链接】https://arxiv.org/pdf/2301.00512.pdf

【推荐理由】药物剂量是 AI 的一个重要应用,可以表述为强化学习 (RL) 问题。 本文确定了将 RL 用于药物剂量的两个主要挑战:给药的延迟和延长效果,这打破了 RL 框架的马尔可夫假设。 本文专注于延长性并定义 PAE-POMDP(延长的行动效果 - 部分可观察的马尔可夫决策过程)。 受药理学文献的启发,作者提出了一种简单有效的方法将药物剂量 PAE-POMDPs 转换为 MDPs,从而能够使用现有的 RL 算法来解决此类问题。 本文在试验任务和一个具有挑战性的葡萄糖控制任务上验证了所提出的方法。 结果表明:(1) 所提出的恢复马尔可夫假设的方法比普通基线有显着改进; (2) 该方法与可能固有地捕获行动的长期影响的经常性策略相比具有竞争力; (3) 它比循环基线具有更高的时间和内存效率,因此更适合实时剂量控制系统; (4) 它在策略分析中表现出有利的定性行为。