Rethinking Out-of-Distribution Detection for Reinforcement Learning: Advancing Methods for Evaluation and Detection

简介

本文研究了强化学习（RL）算法在许多序列决策问题中的成功应用，但是它们在未知的测试环境中的泛化能力仍然是一个重要的问题。本文研究了RL中的超出分布（OOD）检测问题，重点是识别测试时RL代理在其训练环境中没有遇到的情况。首先，我们提出了RL中OOD检测术语的澄清，使其与其他机器学习领域的文献保持一致。然后，我们为OOD检测提出了新的基准场景，将时间自相关性的异常引入代理-环境循环的不同组件中。我们认为，尽管这些场景与现实世界的情况相关，但在当前文献中它们的研究还不足。通过实验证实了我们的理论预测，我们的实验结果表明，最先进的OOD检测器不能识别这种异常。为了解决这个问题，我们提出了一种新的OOD检测方法，称为DEXTER（通过提取时间序列表示进行检测）。通过将环境观测视为时间序列数据，DEXTER提取显著的时间序列特征，然后利用隔离森林算法的集合来检测异常。我们发现，在基准场景中，DEXTER可以可靠地识别异常，表现优于最先进的OOD检测器和从统计学中采用的高维变点检测器。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文探讨如何在强化学习中检测未知测试环境（OOD）的问题。
关键思路

提出一种新的基于时间序列特征的OOD检测方法DEXTER，并在新的基准测试场景中进行了实验。
其它亮点

论文提出了新的基准测试场景，引入具有时间自相关性的异常情况。实验结果表明，目前的OOD检测器无法识别这种异常情况。DEXTER方法在这些场景中表现出优异的性能，并超越了当前领域的其他方法。
相关研究

最近的相关研究包括使用统计学中的高维变点检测方法进行OOD检测，以及使用神经网络进行异常检测。相关论文包括《High-dimensional changepoint detection with application in genomics》和《Unsupervised anomaly detection with generative adversarial networks to guide marker discovery》等。

Rethinking Out-of-Distribution Detection for Reinforcement Learning: Advancing Methods for Evaluation and Detection

提问交流

提问交流