Pearl: A Production-ready Reinforcement Learning Agent

Zheqing Zhu ,
Rodrigo de Salvo Braz ,
Jalaj Bhandari ,
Daniel Jiang ,
Yi Wan ,
Yonathan Efroni ,
Liyuan Wang ,
Ruiyang Xu ,
Hongbo Guo ,
Alex Nikulkov ,
Dmytro Korenkevych ,
Urun Dogan ,
Frank Cheng ,
Zheng Wu ,
Wanqiao Xu
2023年12月06日
  • 简介
    强化学习(RL)提供了一个实现长期目标的多功能框架。其通用性使我们能够形式化各种现实世界智能系统遇到的问题,例如处理延迟奖励、处理部分可观察性、解决探索和开发困境、利用离线数据来提高在线性能,并确保满足安全约束。尽管RL研究界在解决这些问题方面取得了相当大的进展,但现有的开源RL库往往只关注RL解决方案流程的一小部分,而其他方面则基本上没有得到关注。本文介绍了Pearl,一个生产就绪的RL代理软件包,专门以模块化方式应对这些挑战。除了介绍初步的基准测试结果,本文还强调了Pearl在工业应用方面的采用,以展示其准备好用于生产。Pearl在Github上开源,网址是github.com/facebookresearch/pearl,其官方网站位于pearlagent.github.io。
  • 图表
  • 解决问题
    论文旨在解决强化学习中的一系列问题,如处理延迟奖励、处理部分可观测性、探索与开发困境以及确保满足安全约束等。同时,现有的开源强化学习库往往只关注强化学习解决方案的部分环节,而忽略了其他方面的问题。
  • 关键思路
    Pearl是一个生产就绪的强化学习代理软件包,旨在以模块化的方式解决上述问题。相比现有的强化学习库,Pearl更加全面,能够处理更多的问题。
  • 其它亮点
    论文提供了Pearl的初步基准测试结果,并展示了Pearl在工业界的应用。Pearl在Github上开源,并提供官方网站。值得关注的是,Pearl的设计模块化,易于使用和扩展。此外,Pearl还支持离线数据的利用,以提高在线性能。
  • 相关研究
    近期的相关研究包括:1)OpenAI的Gym库;2)DeepMind的Acme库;3)Google的Dopamine库。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论