【论文标题】Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow 【作者团队】John McLeod, Hrvoje Stojic, Vincent Adam, Dongho Kim, Jordi Grau-Moya, Peter Vrancx, Felix Leibfried 【发表时间】2020/03/26 【机 构】剑桥大学 【论文链接】https://arxiv.org/abs/2103.14407

【推荐理由】 本文来自剑桥大学,作者提出了第一个经过全面设计和测试的基于模型的RL工具箱Bellman。 在过去的十年中,无模型强化学习为诸如机器人技术等具有挑战性的领域提供了解决方案。基于模型的RL在代理与环境的交互方面显示出比无模型的方法更有效率的样本的前景,因为该模型能够推断出未见的情况。在最近的过去中,在一些具有非线性状态转换的具有挑战性的领域中,基于模型的方法已显示出比无模型方法更好的结果。同时,很明显,RL尚未面向市场,并且许多实际应用都将需要基于模型的方法,因为无模型方法的样本效率太低,并且在早期阶段表现不佳。训练。后者在工业中尤其重要,例如直接影响公司收入的生产系统中。这证明了工具箱有必要突破基于模型的RL的界限。尽管有很多用于无模型RL的工具箱,但是基于模型的RL在工具箱开发方面很少受到关注。Bellman旨在填补这一空白,并使用最先进的软件工程实践介绍了第一个经过全面设计和测试的基于模型的RL工具箱。我们的模块化方法能够将广泛的环境模型与基于通用模型的代理类相结合,以恢复最新算法。我们还提供了一种实验工具,可以系统地比较无模型代理和基于模型的代理。用户定义的评估指标(例如累积奖励)。这为新的研究方向铺平了道路,例如研究不一定基于神经网络的不确定性感知环境模型,或者开发算法以解决具有工业特征的基准,这些基准具有与现实世界中的问题相同的特征。

内容中包含的图片若涉及版权问题,请及时与我们联系删除