- 简介考虑在线优化中的非平稳环境可以使决策者有效地适应变化并提高性能。在这种情况下,采用最小化变化的负面影响的策略是有利的,以避免潜在的风险情况。在本文中,我们研究了风险厌恶的在线优化,其中随机成本的分布随时间变化。我们使用条件风险价值(CVaR)作为风险度量来最小化风险厌恶的目标函数。由于难以获得精确的CVaR梯度,我们采用了零阶优化方法,在每次迭代中多次查询成本函数值,并使用采样值估计CVaR梯度。为了便于后悔分析,我们使用基于Wasserstein距离的变化度量来捕捉时间变化的分布。鉴于分布变化在总剧集数中是次线性的,我们证明了我们设计的学习算法在凸函数和强凸函数中都可以高概率地实现次线性动态后悔。此外,理论结果表明,增加样本数量会导致动态后悔界限的降低,直到采样数量达到特定限制为止。最后,我们提供了一个动态定价的停车场的数值实验,以说明设计算法的有效性。
- 图表
- 解决问题本论文旨在解决风险规避在线优化问题,其中成本分布随时间变化。
- 关键思路通过使用条件风险价值(CVaR)作为风险度量,采用零阶优化方法来最小化风险规避目标函数。为了捕捉时间变化的分布,使用基于Wasserstein距离的变异度量来促进遗憾分析。
- 其它亮点论文提出的算法在凸和强凸函数上实现了亚线性动态遗憾,数值实验表明其在动态定价问题中表现出良好的效果。
- 相关研究包括Online Learning领域的其他算法,以及基于CVaR的风险规避问题的研究。
沙发等你来抢
去评论
评论
沙发等你来抢