- 简介本文研究了利用多个数据源进行政策评估的方法,特别是在涉及一个实验数据集和一个单一控制组数据集的情况下。我们提出了新颖的数据整合方法,线性整合基于实验和历史数据构建的基础策略价值估计器,并优化权重以最小化组合估计器的均方误差(MSE)。我们进一步应用悲观原则来获得更加稳健的估计器,并将这些方法扩展到顺序决策制定中。在理论上,我们建立了我们提出的估计器的非渐近误差界,并推导了它们在广泛的奖励变化场景下的预测、效率和鲁棒性属性。基于一个拼车公司的数值实验和真实数据分析,证明了所提出的估计器的优越性能。
- 图表
- 解决问题本论文旨在解决多数据源下的政策评估问题,特别是在涉及一个实验数据集和一个历史数据集的情况下,提出了线性集成基于实验和历史数据构建的基本政策价值估计器的新方法,并优化权重以最小化所得到的组合估计器的均方误差(MSE)。同时,将悲观主义原则应用于获得更加鲁棒的估计器,并将这些方法扩展到顺序决策制定。本文的目的是验证这些方法的理论保证和实际表现。
- 关键思路本文的关键思路是提出了一种新的方法,用于多数据源下的政策评估问题,特别是在涉及一个实验数据集和一个历史数据集的情况下,通过线性集成基于实验和历史数据构建的基本政策价值估计器,并优化权重以最小化所得到的组合估计器的均方误差(MSE)。同时,将悲观主义原则应用于获得更加鲁棒的估计器,并将这些方法扩展到顺序决策制定。
- 其它亮点本文的亮点包括:1.提出了一种新的方法,用于多数据源下的政策评估问题;2.将悲观主义原则应用于获得更加鲁棒的估计器;3.将这些方法扩展到顺序决策制定;4.通过数值实验和来自一家共享出行公司的真实数据分析,证明了所提出的估计器的卓越性能。
- 最近在这个领域中,还有一些相关的研究,例如《Combining Off-Policy and On-Policy Data for Policy Evaluation》、《Doubly Robust Off-policy Value Evaluation for Reinforcement Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢