查尔姆斯理工大学 | 集成分位数网络：不确定性感知强化学习及其在自动驾驶中的应用

【标题】Ensemble Quantile Networks: Uncertainty-Aware Reinforcement Learning with Applications in Autonomous Driving

【作者团队】Carl-Johan Hoel, Krister Wolff, Leo Laine

【论文链接】https://arxiv.org/pdf/2105.10266.pdf

【发表日期】2021.5.21

【推荐理由】强化学习（RL）可用于创建自动驾驶的决策代理。然而，以前的方法只提供黑盒解决方案，没有提供有关代理对其决策有多自信的信息。对智能体决策的任意性和认知性不确定性的估计对于自动驾驶的实际应用至关重要。因此，本文引入了集成分位数网络（EQN）方法，该方法将分布RL方法与集成方法相结合，以获得完整的不确定性估计。通过隐式学习分位数函数估计收益率的分布，给出了任意不确定性，而在bootstrapped数据上训练一个agent集合来提供认知不确定性的贝叶斯估计。研究结果表明，所提出的EQN算法结合了IQN和RPF方法的优点，其考虑了估计的任意不确定性，能够在不同交叉路口场景中平衡风险和时间效率。此外，经过训练的智能体可以利用认知不确定性信息来识别智能体尚未经过训练的情况，从而避免在训练分布之外做出毫无根据的、潜在危险的决策。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

查尔姆斯理工大学 | 集成分位数网络：不确定性感知强化学习及其在自动驾驶中的应用

评论列表

评论