在强化学习的训练过程中,常常会遇见以下问题:在某一环境中可以 work 的超参数拿去训练别的环境却训练不出来 ;训练时熵在增大;训练动作达到边界;本文通过调试几个环境的案例来探究强化学习的调参方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除