谷歌打造开放源码库RLiable，让机器强化学习评估更可靠

RL 已在电子游戏、平流层飞行气球和设计硬件芯片等复杂的任务上取得了可观的实验结果。然而，谷歌认为现行的RL经验评估标准越来越表现出一些问题，可能会给人一种机器学习在快速进步的错觉，同时会减慢 RL 领域的发展速度。

针对这个问题，谷歌在 NeurIPS 2021 上的一份口头报告《基于统计边缘的深度化学习》（Deep Reinforcement Learning at the Edge of the Statistical Precipice）中，深入探讨了如何在只使用少量训练的情况下，考虑结果的统计不确定性，并使深度强化学习的评估更可靠。

谷歌提出了一个更严格的 RL 评估方法，并发布了多种统计工具，包括分层引导置信区间、性能概况、四分位数均值和最优性差距，同时还发布了一个开放源码库 RLiable。