- 简介人工神经网络用于强化学习时结构上较为严格,这意味着网络中的每个优化参数都与其特定位置的网络结构相关联。这也意味着网络仅能使用预定义和固定的输入和输出大小。这是因为优化参数的数量直接取决于网络结构。结构上的严格性限制了在不共享输入和输出空间的多个环境中优化策略参数的能力。在这里,我们演化了一组神经元和可塑性突触,每个神经元和突触都由门控循环单元(GRU)表示。在优化过程中,神经网络的这些基本单元的参数在不同的随机结构配置中进行优化。早期的研究表明,单元之间的参数共享对于使神经元结构灵活非常重要。我们展示了通过优化一组不同类型的神经元和突触来解决对称性困境的可能性。我们通过优化单组神经元和突触来同时解决多个强化学习控制任务来证明这一点。
- 图表
- 解决问题论文旨在解决强化学习中神经网络的结构僵化问题,限制了神经网络在不同环境中的优化能力,提出了一种基于演化的神经元和可塑性突触的优化方法。
- 关键思路论文提出了一种基于演化的优化方法,通过优化一组不同的神经元和突触类型,实现了神经网络结构的灵活性,从而在多个强化学习控制任务中实现了优化。
- 其它亮点论文通过演化算法优化神经元和突触类型,实现了神经网络结构的灵活性,解决了神经网络的结构僵化问题。实验结果表明,该方法可以在多个强化学习控制任务中实现优化。论文开源了代码和数据集,值得进一步研究。
- 在最近的相关研究中,也有一些研究致力于解决神经网络结构僵化的问题,如《Flexible Neural Representation for Physics Prediction》和《Learning to Learn by Gradient Descent by Gradient Descent》。
沙发等你来抢
去评论
评论
沙发等你来抢