- 简介本文探讨了在多行动(或多臂)设置中使用观测数据进行最优策略学习(OPL),即数据驱动的最优决策制定。它分为三个部分,分别讨论估计、风险偏好和潜在失败。第一部分简要回顾了在此分析背景下估计奖励(或价值)函数和最优策略的关键方法。在此,作者详细说明了离线最优策略学习估计器的识别假设和统计特性。在第二部分中,作者深入分析了决策风险。这种分析揭示了最优选择可能会受到决策者对风险的态度的影响,特别是在奖励条件均值和条件方差之间的权衡方面。在这里,作者提出了所提出的模型在真实数据上的应用,说明了具有多值治疗的策略的平均后悔取决于决策者对风险的态度。本文的第三部分讨论了最优数据驱动决策制定的局限性,通过强调决策制定可能失败的条件来进行。这方面与识别最优选择所必需的两个基本假设的失败有关:(i)重叠和(ii)不相关性。最后,本文得出了一些结论。
-
- 图表
- 解决问题本论文旨在解决利用观测数据进行最优策略学习(OPL)的问题,即在多个行动(或多臂)设置中进行数据驱动的最优决策制定。文章分为三个部分,分别讨论了估计、风险偏好和潜在失败。
- 关键思路本文提出了一种新的模型,可以估计奖励(或价值)函数和最优策略,并分析了决策风险对最优选择的影响。同时,文章还讨论了最优数据驱动决策制定的局限性,特别是在两个基本假设失败的情况下。
- 其它亮点文章提出的模型在真实数据上进行了应用,并展示了决策者对风险的态度如何影响多价值处理策略的平均遗憾。文章还讨论了最优数据驱动决策制定的局限性,并指出两个基本假设失败的情况。
- 近期的相关研究包括:1. Counterfactual Learning-to-Rank with Unbiased Propensity Estimation (Wang et al., 2020); 2. Reinforcement Learning for Optimizing Click-Through Rate in Sponsored Search (Zhang et al., 2018); 3. Learning Optimal Decision Trees with Fairness Constraints (Kamiran et al., 2018)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流