【标题】Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning

【作者团队】Ilnura Usmanova, Yarden As, Maryam Kamgarpour, Andreas Krause

【发表日期】2022.7.21

【论文链接】https://arxiv.org/pdf/2207.10415.pdf

【推荐理由】当评估目标需要在部署的系统上进行实验时,在线优化噪声函数是制造业、机器人学和许多其他领域的一项关键任务。通常,对安全输入的约束在时间之前是未知的,通常只获得噪声信息,判断离违反约束有多近。并要始终保证安全,而不仅仅是算法的最终输出。本文提出LB-SGD的方法基于将随机梯度下降(SGD)和精心选择的自适应步长应用于原始问题的对数势垒近似。并提供了具有一阶和零阶反馈的非凸、凸和强凸光滑约束问题的完整收敛性分析。该方法可以产生高效的更新,并更好地扩展维度。通过实证比较了该方法与现有安全学习方法的样本复杂度和计算成本。除了综合基准之外,还证明了该方法在安全强化学习(RL)中最小化策略搜索任务中的约束违反的有效性。