【标题】Self Reward Design with Fine-grained Interpretability(具有细粒度可解释性的自我奖励设计)

【作者团队】 Erico Tjoa, Guan Cuntai。Nanyang Technological University

【发表日期】30 December, 2021

【论文链接】https://arxiv.org/pdf/2112.15034.pdf

【推荐理由】深度强化学习中的透明度和公平性问题可能源于用于学习其策略、值函数等的深度神经网络的黑盒性质。本文提出了一种通过具有详细解释性的自底向上设计神经网络(NN)来规避这一问题的方法,每个神经元或层都有自己的意义和效用,符合人类可以理解的概念。通过精心设计,证明了拉瓦兰问题可以用参数较少的神经网络模型来解决。此外,引入了受反向奖励设计启发的自我奖励设计(SRD),可解释设计可以(1)通过纯设计解决问题(尽管不完全)(2)通过SRD进行优化(3)通过识别聚集中的神经元失活来避免未知状态。

内容中包含的图片若涉及版权问题,请及时与我们联系删除