Optimal Policy Learning with Observational Data in Multi-Action Scenarios: Estimation, Risk Preference, and Potential Failures

向作者提问

NEW

简介

本文探讨了在多行动（或多臂）设置中使用观测数据进行最优策略学习（OPL），即数据驱动的最优决策制定。它分为三个部分，分别讨论估计、风险偏好和潜在失败。第一部分简要回顾了在此分析背景下估计奖励（或价值）函数和最优策略的关键方法。在此，作者详细说明了离线最优策略学习估计器的识别假设和统计特性。在第二部分中，作者深入分析了决策风险。这种分析揭示了最优选择可能会受到决策者对风险的态度的影响，特别是在奖励条件均值和条件方差之间的权衡方面。在这里，作者提出了所提出的模型在真实数据上的应用，说明了具有多值治疗的策略的平均后悔取决于决策者对风险的态度。本文的第三部分讨论了最优数据驱动决策制定的局限性，通过强调决策制定可能失败的条件来进行。这方面与识别最优选择所必需的两个基本假设的失败有关：（i）重叠和（ii）不相关性。最后，本文得出了一些结论。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决利用观测数据进行最优策略学习（OPL）的问题，即在多个行动（或多臂）设置中进行数据驱动的最优决策制定。文章分为三个部分，分别讨论了估计、风险偏好和潜在失败。
关键思路

本文提出了一种新的模型，可以估计奖励（或价值）函数和最优策略，并分析了决策风险对最优选择的影响。同时，文章还讨论了最优数据驱动决策制定的局限性，特别是在两个基本假设失败的情况下。
其它亮点

文章提出的模型在真实数据上进行了应用，并展示了决策者对风险的态度如何影响多价值处理策略的平均遗憾。文章还讨论了最优数据驱动决策制定的局限性，并指出两个基本假设失败的情况。
相关研究

近期的相关研究包括：1. Counterfactual Learning-to-Rank with Unbiased Propensity Estimation (Wang et al., 2020); 2. Reinforcement Learning for Optimizing Click-Through Rate in Sponsored Search (Zhang et al., 2018); 3. Learning Optimal Decision Trees with Fairness Constraints (Kamiran et al., 2018)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问