Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty

简介

在许多领域中，如能源、金融和供应链中，不确定性下的顺序决策制定（SDMU）是无处不在的。一些SDMU应用程序自然地建模为多阶段随机优化问题（MSPs），但由此产生的优化从计算角度来看非常具有挑战性。在凸性和阶段性独立性假设下，可以使用随机双重动态规划（SDDP）有效地解决所得到的优化问题。已经提出了两阶段线性决策规则（TS-LDRs）来解决没有阶段性独立性假设的MSPs。TS-LDRs是计算上可行的，但是使用过去观测的线性函数作为策略通常不适用于非凸环境，例如能源系统。本文介绍了一种新方法，即两阶段通用决策规则（TS-GDR），以将策略空间推广到线性函数之外，使其适用于非凸环境。TS-GDR是一种自我监督学习算法，使用随机梯度下降（SGD）训练非线性决策规则；其前向传递解决策略实施优化问题，而后向传递利用对偶理论获得闭合梯度。通过使用名为两阶段深度决策规则（TS-DDR）的深度递归神经网络的实例化来展示了TS-GDR的有效性。该方法继承了深度学习方法的灵活性和计算性能，以解决通常通过大规模优化技术解决的SDMU问题。应用于使用玻利维亚实际电力系统数据的长期水热调度（LTHD）问题时，TS-DDR不仅提高了解决方案的质量，而且还将计算时间显著减少了几个数量级。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：该论文旨在解决多阶段随机优化问题的计算挑战，提出了一种新的方法TS-GDR来扩展策略空间以适应非凸环境。
关键思路

关键思路：TS-GDR是一种自我监督学习算法，使用随机梯度下降（SGD）来训练非线性决策规则，其正向传递解决策略实施优化问题，而反向传递利用对偶理论获得闭式梯度。
其它亮点

其他亮点：该论文提出的TS-GDR方法可以使用深度递归神经网络来实现，不仅提高了解决方案的质量，还将计算时间显著缩短了数个数量级。该方法在玻利维亚实际电力系统数据上应用于长期水热调度（LTHD）问题，取得了显著的效果。
相关研究

相关研究：目前，该领域的相关研究包括基于凸性和阶段独立性假设的随机双重动态规划（SDDP）方法和基于两阶段线性决策规则（TS-LDRs）的方法。

Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty

提问交流

提问交流