Rethinking Out-of-Distribution Detection for Reinforcement Learning: Advancing Methods for Evaluation and Detection

2024年04月10日
  • 简介
    本文研究了强化学习(RL)算法在许多序列决策问题中的成功应用,但是它们在未知的测试环境中的泛化能力仍然是一个重要的问题。本文研究了RL中的超出分布(OOD)检测问题,重点是识别测试时RL代理在其训练环境中没有遇到的情况。首先,我们提出了RL中OOD检测术语的澄清,使其与其他机器学习领域的文献保持一致。然后,我们为OOD检测提出了新的基准场景,将时间自相关性的异常引入代理-环境循环的不同组件中。我们认为,尽管这些场景与现实世界的情况相关,但在当前文献中它们的研究还不足。通过实验证实了我们的理论预测,我们的实验结果表明,最先进的OOD检测器不能识别这种异常。为了解决这个问题,我们提出了一种新的OOD检测方法,称为DEXTER(通过提取时间序列表示进行检测)。通过将环境观测视为时间序列数据,DEXTER提取显著的时间序列特征,然后利用隔离森林算法的集合来检测异常。我们发现,在基准场景中,DEXTER可以可靠地识别异常,表现优于最先进的OOD检测器和从统计学中采用的高维变点检测器。
  • 作者讲解
  • 图表
  • 解决问题
    论文探讨如何在强化学习中检测未知测试环境(OOD)的问题。
  • 关键思路
    提出一种新的基于时间序列特征的OOD检测方法DEXTER,并在新的基准测试场景中进行了实验。
  • 其它亮点
    论文提出了新的基准测试场景,引入具有时间自相关性的异常情况。实验结果表明,目前的OOD检测器无法识别这种异常情况。DEXTER方法在这些场景中表现出优异的性能,并超越了当前领域的其他方法。
  • 相关研究
    最近的相关研究包括使用统计学中的高维变点检测方法进行OOD检测,以及使用神经网络进行异常检测。相关论文包括《High-dimensional changepoint detection with application in genomics》和《Unsupervised anomaly detection with generative adversarial networks to guide marker discovery》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问