强化学习中的调参经验与编程技巧（onpolicy篇）

苦行僧 2020-12-30 22:58 分享

在强化学习的训练过程中，常常会遇见以下问题：在某一环境中可以 work 的超参数拿去训练别的环境却训练不出来；训练时熵在增大；训练动作达到边界；本文通过调试几个环境的案例来探究强化学习的调参方法。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

沙发等你来抢

去评论