【标题】Residual Physics and Post-Posed Shielding for Safe Deep Reinforcement Learning Method

【作者团队】Qingang Zhang , Muhammad Haiqal Bin Mahbod , Chin-Boon Chng

【发表日期】2022.6.14

【论文链接】https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9796122

【推荐理由】深度强化学习 (DRL) 已针对数据中心 (DC) 中的机房空调单元控制问题进行了研究。然而,两个主要问题限制了 DRL 在实际系统中的部署。首先,需要大量的数据。其次,作为一个关键任务系统,需要保证安全控制,并且DC中的温度应该保持在一定的工作范围内。为了缓解这些问题,本文提出了一种新颖的控制方法 RP-SDRL。首先,使用热力学第一定律构建的残差物理与 DRL 算法和预测模型相结合。随后,一个从梯度下降适应的校正模型与作为后置屏蔽的预测模型相结合,以强制执行安全操作。使用仿真验证了 RP-SDRL 方法。将噪声添加到模型的状态中,以进一步测试其在状态不确定性下的性能。实验结果表明,本文方法可以显著提高初始策略、样本效率和鲁棒性。残差物理还可以提高样本效率和预测模型的准确性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除